2015年5月18日

パフォーマンス分析の方法論23選

(2014-09-30)by Brendan Gregg

本記事は、原著者の許諾のもとに翻訳・掲載しております。

パフォーマンス分析のメソドロジーとは、システムやアプリケーションのパフォーマンスを分析する際に準拠できる手法です。メソドロジーを手がかりとして作業に着手できますし、根本原因やその他の要因の発見に役立ちます。異なる種類の問題を解決するのには、それぞれに適したメソドロジーがあります。目的を達成するまでに何度か方法を変えて試してみるといいかもしれません。

メソドロジーを使わない分析は手探りの探索になり、ある問題に対する手がかりが見つかるまで（もしあればですが）ずっと場当たり的にメトリクスを分析することになってしまいます。

このサイトでは以下のメソドロジーについて詳しい資料を公開しています。

USE（Utilization Saturation and Errors）メソッド：リソースのボトルネックを見つける
TSA（Thread State Analysis：スレッドステート分析）メソッド：アプリケーションタイムの分析
Off-CPU分析：あらゆるタイプのスレッド待機のレイテンシの分析
アクティブベンチマーキング：正確で良好なベンチマーキング結果を取得

私が作成したり、活用してきたメソドロジーを下記に簡潔にまとめます。印刷してチェックシートやリマインダとしてぜひ活用してください。

まとめ

当初USENIX LISA 2012で、パフォーマンス分析のメソドロジー（ PDF 、スライド、 youtube 、 USENIX ）について講演するため、様々なパフォーマンスのメソドロジーについてまとめました。後にその内容を『Systems Performance』という書籍にしました。以下に挙げたメソドロジーは、私の最新のサマリーリストです。リストの最初は、比較対象としてメソドロジーのアンチパターンを掲載しますので、これらは参考にしないでください。

1. 誰かのせいにするアンチメソッド

自分の責任範囲外のシステムや環境のコンポーネントを探し出す
問題が上記コンポーネントにあると仮定する
問題を上記コンポーネントの担当部署に押し付ける
うまくいかなかったらもう一度ステップ1に戻る

2. 街灯のアンチメソッド

下記のような観測ツールを選ぶ
- 馴染みがある
- インターネットで見つけた
- たまたまあった
ツールを実行する
明らかな問題を探す

3. 酔っ払いのアンチメソッド

問題が解決するまで適当に変更しながらやってみる

4. ランダム変化のアンチメソッド

基準値となるパフォーマンスを測定する
適当に属性を選んで変更する（例えば可変値など）
一方向に変更する
パフォーマンスを測定する
逆方向に変更する
パフォーマンスを測定する
ステップ4～6の結果は基準値を上回れば変更を続け、下回れば元に戻す
ステップ1に戻る

5. 受け身のベンチマークのアンチメソッド

ベンチマークツールを選ぶ
様々なオプションで実行する
結果をパワーポイントなどにまとめる
まとめた資料をマネージャに提出する

6. 限定的チェックリストメソッド

Nについて、Aを実行し、もしBならCを行う

7. 問題点記述メソッド

どのような点で、パフォーマンスに問題があると思うか
これまで、システムに問題はなかったか
最近、何か（ソフト、ハード、負荷など）変更したか
パフォーマンスの低下について、レイテンシやランタイムの点から説明できるか
その問題は他の人々やアプリケーションに影響を及ぼしているか（もしくはあなただけの問題か）
環境、使用中のソフトやハード、バージョン、および構成はどのようになっているか

8. 科学的メソッド

疑問
仮説
予測
検証
分析

9. 作業負荷キャラクタリゼーションメソッド

負荷が生じている原因は何か：PID、UID、IPアドレス…
なぜ負荷が発生しているのか：コードパス
どのような負荷か：IOPS、tput、type
時間の経過で負荷はどのように変わるか

10. ドリルダウン分析メソッド

最高レベルで始める
次のレベルの詳細を検証する
最も影響が大きいと思われる要因の選別する
問題が解決されなければステップ2へ

11. パフォーマンスに対する5回の問答メソッド

現状のパフォーマンスに対し疑問を持ち、これに答える
前の回答に対し疑問を持ち、これに答える
前の回答に対し疑問を持ち、これに答える
前の回答に対し疑問を持ち、これに答える
前の回答に対し疑問を持ち、これに答える

12. バイレイヤメソッド

以下でレイテンシを計測する。

動的言語
実行ファイル
ライブラリ
システムコール
カーネル：FS、ネットワーク
デバイスドライバ

13. レイテンシ分析メソッド

演算時間を計測する（レイテンシ）
整合性のある論理コンポーネントに分割する
レイテンシの原因が特定できるまで分割を継続する
定量化：問題解決時の速度アップを評価する

14. ツールメソッド

利用可能なパフォーマンスツールをリストアップする（必要に応じて追加）
各ツールについて、有効なメトリクスをリストアップする
各メトリクスについて、可能な解釈をリストアップする
選択したツールを実行し、選択したメトリクスを解釈する

15. USEメソッド

リソースごとに以下をチェックする。

利用度
サチュレーション
エラー数

16. スタックプロファイリングメソッド

スレッドのスタックトレース（on-cpuとoff-cpu）をプロファイリングする
coalesceする
スタックをボトムアップで検証する

17. Off-CPU分析

スタックトレースでスレッドごとのoff-cpu時間をプロファイリングする
スタックの場合のように時間をcoalesceする
スタックを最長時間から最短時間まで検証する

18. TSAメソッド

任意スレッドにおいて、以下に挙げるような項目について、オペレーティングシステムのスレッドの状態を計測する。
- 実行
- ランナブル
- スワップ
- スリープ
- ロック
- 待機
適切なツールを使って、最多頻度から最少頻度までの状態を調査する

19. アクティブベンチマーキングメソッド

ベンチマークを長時間実行するよう設定する
実行中に他のツールを使用してパフォーマンスを分析し、制約となっている要因を特定する

20. メソッドR

ビジネスワークロードに影響を与えるユーザアクションを選定する
ユーザアクションの応答時間を要因ごとに測定する
最適化で得られる最良の効果を計算する
- 十分な向上があれば、チューニングする
- 十分な向上が無ければ、変化が見られるまでチューニングを停止する
ステップ1に戻る

21 パフォーマンス評価手順

検証における目標を定め、システムの閾値を定義する
システムサービスをリストアップし、考え得る効果を挙げる
パフォーマンスの評価基準を選定する
システムとワークロードのパラメータをリストアップする
要因とそれらの値を選定する
ワークロードを選択する
実験内容を作成する
データを分析し、解釈する
結果を提示する
必要があれば、最初からやり直す

22 キャパシティプランニングプロセス

システムを作動させる
システムの使用状況を監視する
ワークロードの特性を明確にする
異なる方法でのパフォーマンスを予測する
最も低負荷で、高いパフォーマンスが見込まれる方法を選択する

23 Intel社階層型トップダウン方式パフォーマンスキャラクタリゼーションメソドロジー

UOPは発行されているか
- 該当する場合：
- UOPはリタイアしているか
  - 該当する場合：リタイアが進行中（良好）
  - 該当しない場合：バッドスペキュレーションを調べる
- 該当しない場合：
- 割り当てはストールしているか
  - 該当する場合：バックエンドのストールを調べる
  - 該当しない場合：フロントエンドのストールを調べる

参照資料

上述のとおり、USENIX LISA 2012でのパフォーマンス分析のメソドロジーに関する講演は、多くの分析メソドロジーを初めてまとめたものです。
誰かのせいにするアンチメソッド、街灯のアンチメソッド、問題点記述メソッド、USEメソッドは［Gregg 13a］（2013年2月発刊の『Communications of the ACM』内Thinking Methodically about Performance）で初めて発表されました。
ランダム変化のアンチメソッド、受け身のベンチマークのアンチメソッド、限定的チェックリストメソッド、ツールメソッド、TSAメソッド、アクティブベンチマーキングメソッドは［Gregg 13b］（2013年10月にPrentice Halより出版されたBrendan Gregg著『Systems Performance：Enterprise and the Cloud』）で初めて発表されました。
メソッドRは2003年O’Reillyより出版された［Millsap 03］（Call Millsap、Jell Halt共著『Optimizing Oracle Performance』）で初めて発表されました。
パフォーマンス評価手順とキャパシティプランニングプロセスは［Jain 91］（1991年にWileyから出版されたRaj Jain著『The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling』）の26ページ以降と124ページに記されています。
作業負荷キャラクタリゼーションメソッド、ドリルダウン分析メソッドは［Gregg 13a］および［Gregg 13b］で特別な手法として述べられていましたが、ITの世界では一般的なプロセスとして長年知られています。
Intel社階層型トップダウン方式パフォーマンスキャラクタリゼーションメソドロジーは2014年9月に発行された『Intel 64 and IA-32 Architectures Optimization Reference Manual（248966-030）』のB．3．2に記載されています。

古川陽介
株式会社リクルート　プロダクト統括本部　プロダクト開発統括室　グループマネジャー株式会社ニジボックス　デベロップメント室室長 Node.js 日本ユーザーグループ代表

複合機メーカー、ゲーム会社を経て、2016年に株式会社リクルートテクノロジーズ(現リクルート)入社。現在はAPソリューショングループのマネジャーとしてアプリ基盤の改善や運用、各種開発支援ツールの開発、またテックリードとしてエンジニアチームの支援や育成までを担う。 2019年より株式会社ニジボックスを兼務し、室長としてエンジニア育成基盤の設計、技術指南も遂行。 Node.js 日本ユーザーグループの代表を務め、Node学園祭などを主宰。