C++ アプリケーションのプロファイリングの技術

導入

パフォーマンスの仕事には、2 つの相反する形の虚栄心が集まります。あるエンジニアは、直感だけで十分で、ホットなコードに対する優れた嗅覚が証拠に取って代わることができると信じたいと考えています。また、あたかも測定ボタンを押すことで混乱が知識に変わったかのように、プロファイラーのスクリーンショット自体が結論であると信じたい人もいます。どちらの本能も魅惑的であり、どちらもダメージを与えます。

C++ でのプロファイリングは、まさに C++ が間違っている可能性が非常に高いため、価値があります。実際、遅いシステムでは、キャッシュミス、ロック競合、アロケータチャーン、ブランチの多いホットループ、ベクトル化ブロッカー、またはコピーの多すぎる問題が発生している可能性があります。また、部屋にいる全員が CPU について議論している間、I/O を待機している可能性もあります。結果の計算よりも結果のシリアル化に多くの時間を費やしている可能性があります。コードコメントで警告されていない方法でスレッドが衝突し続けるため、スケーリングが適切に行われていない可能性があります。これほど表現力豊かで機械に近い言語では、もっともらしい説明が急速に増えます。

だからこそ、プロファイリングは誠実さの規律として理解されるべきなのです。それは私たちに、エレガントな物語を慎重な物語に置き換えることを教えます。急いで書き直すスピードが遅くなります。これにより、チームは、問題のわずか 4% であることが判明した問題の改善に 1 週間を無駄にする必要がなくなります。そして、それがうまく行けば、議論が芝居じみたものではなくなり、より協力的なものになるため、エンジニアリング文化に驚くほど人道的な影響を及ぼします。プロファイラーが審判になります。

ツールが開く前にプロファイリングが開始される

有用なプロファイリングセッションは、最初のサンプルが収集されるずっと前に始まります。それは、どのような質問に答えようとしているのかを決めることから始まります。「プログラムが遅いのはなぜですか?」十分な質問となることはほとんどありません。ツールの選択をガイドするには曖昧すぎますし、改ざんするには曖昧すぎます。より良い質問は、より具体的に聞こえます。パーサーの変更後に p99 レイテンシが低下したのはなぜですか? 8 スレッドを超えるとスループットの向上が止まるのはなぜですか?あるマシンクラスの動作が別のマシンクラスよりも悪いのはなぜですか?コードを簡略化すると、負荷時のバイナリが遅くなるのはなぜですか?

質問の質が残りの作業を左右します。症状がリクエストレイテンシの回帰である場合、代表的なリクエストパスと、そのレイテンシが発生する場所の明確な定義が必要です。症状がスループットのプラトーである場合は、CPU、待機、メモリ帯域幅、または同期が成長を制限しているかどうかを知る必要があります。症状がマシン固有の動作である場合は、ソースコード自体よりも、ハードウェアカウンター、アフィニティ、および展開の違いが重要になる可能性があります。良い質問をするという行為は、すでに最適化の一形態です。なぜなら、それは私たちが間違っても構わないと思う事柄の範囲を狭めるからです。

ここは、多くのチームが密かに妨害行為を行っている場所でもあります。これらは、測定値が劇場になるほどノイズの多い環境で、間違ったバイナリで、おもちゃの入力を使用して、非現実的な負荷の下でプロファイリングを行います。そして、彼らは天文学と気象民間伝承の証拠品質に自信を持って結果を提示します。プロファイラーはそれらを失敗しませんでした。彼らの実験計画は失敗に終わりました。パフォーマンス作業では、厳密さはセットアップラインから始まります。

信頼できる測定環境を構築する

C++ プログラムは、さまざまな条件下でさまざまな個性を明らかにします。デバッグビルドは、本番環境とは関係のない理由で恐ろしく遅いように見える場合があります。シンボルのないリリースビルドは十分に高速に実行される可能性がありますが、表示する必要があるパスが隠れてしまいます。小さな合成入力がキャッシュに完全に収まりすぎて、貧弱な設計がお世辞になる場合があります。熱圧力やバックグラウンドノイズがかかったマシンでは、実際にランダムな干渉を記述しながら、正確に感じられる結果が得られる場合があります。

信頼できる環境は不完全な場合があります。それは意図的なものでなければなりません。ユーザーが実際に実行するものに最も近いバイナリを使用してください。デバッグ情報やフレームポインターを、ツールが活用できる場所に保管してください。現実的な入力、または少なくとも実際のワークロードの定性的特性を維持する入力 (データサイズ、分岐の不規則性、競合パターン、割り当て圧力、要求の組み合わせなど) をプログラムに入力します。平均実行時間と、システムにとって重要な出力 (問題に応じて、テールレイテンシー、スループット、ステージ時間、割り当て量、ロック待機、キャッシュ動作、起動時間など) を測定します。

これをうまくやると深い優しさが生まれます。エンジニアが正直な条件でプロファイリングを行うと、チーム全体がゴーストをめぐる争いから逃れることができます。設定に欠陥があると、誰もが理論を擁護するようになります。適切な設定では、理論はすぐに消えてしまいます。これは、パフォーマンス重視のエンジニアがプロジェクトに提供できる最も費用対効果の高い贈り物の 1 つです。

仕事と待ち時間を区別する方法を学ぶ

最も一般的なプロファイリングの失敗の 1 つは、すべての遅さを CPU の作業であるかのように扱うことです。 C++ 言語は低レベルの思考を招くため、エンジニアは特にこの間違いに対して脆弱です。サービスが遅い場合、私たちは命令、分岐、キャッシュライン、インライン化の決定を想像し始めます。時にはその直感がまさに正しいこともあります。また、ロックでの待機、キューでの待機、I/O での待機、過剰に調整されたスレッドプールでの待機、ホットループが少しきれいになることで修復できないリソースでの待機など、システムがほとんど待機している場合もあります。

したがって、優れたプロファイリングは広範囲に始まり、全体像が明確になって初めて微細なものになります。サンプリングプロファイラは、CPU 時間が実際にどこに費やされているかを発見するのに優れています。トレースツールは、問題が実際にシーケンス、待機、またはステージのインタラクションにあることを明らかにするのに役立ちます。ヒープおよび割り当てツールは、メモリストーリーが他のすべてを汚染しているかどうかを教えてくれます。ハードウェアカウンタは、パスが本当にホットで、ミス、分岐、推測、ベクトル化の品質が注目に値する場合に役立ちます。各ツールは異なる質問をする方法です。問題は、チームが 1 つの質問をし、その答えが別の質問を解決したかのように解釈したときに始まります。

身近な例でこの罠を説明します。パーサーが CPU プロファイルの先頭近くに表示されるとします。せっかちなエンジニアは、パーサーを書き直す必要があると結論付けるかもしれません。しかし、タイムラインビューでは、パイプラインの残りの部分が頻繁にブロックされ、アクティブな CPU 領域が実際よりも比例して大きく見えるため、パーサーが優勢に見えるだけであることが示される場合があります。別のケースでは、パーサーは実際には高価ですが、割り当てをターゲットに少し変更するだけで、大幅な書き換えを行わずにコストのほとんどが削減されます。プロファイラーの才能は、何を最適化すべきかを 1 つのステップで教えてくれるということではありません。その賜物は、本質的な作品を演劇作品から切り離し続けていることです。

ツールは解釈の習慣ほど重要ではない

エンジニアはよく、あたかも普遍的な正解があるかのように、どのプロファイラーが最適であるかを尋ねます。実際には、次にどのような種類の真実が必要かという方が良いでしょう。 Visual Studio、VTune、Visual Studio のプロファイラー、Tracy、Perfetto、フレームグラフ、Callgrind、およびヒーププロファイラーはそれぞれ、現実の異なる表面を照らします。成熟した習慣とは、ツールへの忠誠心ではありません。それは解釈の規律です。

フレームグラフは、CPU サンプルが蓄積される場所を示すのに優れていますが、それだけではキュー遅延を説明できません。タイムラインビューは、ステージのインタラクションや待機を表示するのに優れていますが、タイトなループで分岐の予測ミスが発生する理由がわからない場合があります。ヒーププロファイルは、パス全体を汚染する割り当てチャーンを明らかにする可能性がありますが、スレッドモデルが一貫しているかどうかだけでは解決しません。エンジニアは、ツールの視覚的な魅力を完全な理解と誤解すると危険になります。

これが、プロファイリングが測定に基づいているにもかかわらず、芸術的な側面を持つ理由です。芸術は神秘主義ではありません。それは判断です。それは、ホットスポットがいつプライマリであり、いつセカンダリであるのか、マイクロベンチマークがいつ誠実で、いつ間違った形状の作業を推奨するのか、いつハードウェアカウンターが信頼に値するのか、いつ別の実験を引き起こす必要があるのかを知ることです。また、いつ下方への掘り下げをやめて、そもそも測定を醜くしたアーキテクチャを簡素化するべきかを知ることにもなります。

C++ パフォーマンス問題の特徴的な形状

C++ パフォーマンスの問題は、多くの場合、認識可能なグループに分類されます。明らかに計算に関係するものもあります。つまり、過剰な作業を実行するタイトなループ、不十分なベクトル化、ブランチの多いホットコード、キャッシュとの相互作用が不十分なデータ構造などです。メモリに起因するものもあります。割り当てが多すぎる、不安定な所有権パターン、不必要なコピー、断片化、または CPU がコンピューティングよりも待機に多くの時間を費やすまでホットデータを分散させるレイアウトです。調整の問題としては、無害に見えるロック、ホップを 1 つ追加しすぎたキュー、末尾の動作を悪化させながら平均スループットを向上させる作業盗用設計、またはアーキテクチャの秩序を維持する能力を超えるスレッド数などがあります。

プロファイリングが強力なのは、これらの家族がお互いになりすますことが多いためです。メモリの問題は、CPU の問題のように見える場合があります。待機の問題は、アルゴリズムの問題のように見えることがあります。ロギングパスは、テールレイテンシービューでサービス全体を汚染していることが示されるまで、無関係に見えることがあります。平凡に見えるコピーが重要になるのは、それがリクエストパスが許容できない 1 つの場所で発生するという理由だけです。測定がなければ、これらのインタラクションを説明するのは簡単ですが、ランク付けするのは困難です。

したがって、優れたプロファイラーは、比例に対する感覚を養います。すべての非効率性が問題になるわけではありません。すべての醜い関数を救う価値があるわけではありません。すべてのクリーンな関数が無害であるわけではありません。このプログラムは、尊厳と緊急性が一致する場所を教えてくれますが、多くの場合、その場所はコードレビューアが最初に指摘した場所ではありません。

誤診のケーススタディ

レコードを取り込み、正規化し、スコアを付け、結果を出力するサービスを想像してください。リリース後、スループットが低下し、p99 レイテンシーが悪化します。この部屋で最初に浮上した理論は、新しい採点ルーチンによって高価な数学が導入されたというものです。 2 番目の理論は、パーサーの分岐が多すぎるというものです。 3 つ目は、ライブラリのアップグレード後にアロケータがリグレッションしたことです。どの理論も、会議では賢明に聞こえるほど説得力があります。

広範な CPU プロファイルは、パーサーとスコアラーの両方が目に見える時間を消費していることを示していますが、完全なレイテンシー回帰を説明するには十分ではありません。タイムライントレースでは、共有出力ステージ周辺での待機のバーストが明らかになります。ヒープ分析では、リクエストパスの終わり近くで割り当てとフォーマット作業が繰り返されていることがわかります。スレッドごとのバッファーを保持し、フォーマットを延期する小規模な実験により、待機パターンが崩壊し、驚くべき量のテールレイテンシーが除去されました。その後になって初めて、焦点を当てた CPU プロファイルによって、大きなボトルネックが解消された後に新たに表示されるようになったコピーについて、スコアラーが小規模なクリーンアップを行う価値があることが示されます。

これはありふれた話ですが、だからこそ重要なのです。実際のプロファイリングが、たった 1 人の劇的な悪役で終わることはほとんどありません。多くの場合、通常のコストの積み重ねが明らかになり、それぞれが他のコストによって増幅されます。映画のような修正を期待していたエンジニアは、代わりに、累積、相互作用、および無視された割合を通じて、システムが実際にどのように劣化するかを学びます。この教訓は、今後の調査の開始方法を変えるため、単一の高速化よりも価値があります。

チームの習慣としてのプロファイリング

優秀なチームは、プロファイリングをレビュー、回帰、主要な設計変更に組み込んでいます。彼らは代表的なデータセットを保持します。フレームグラフ、トレース、ベンチマークアーティファクトを、変更内容の説明とともに保存します。彼らは、提案された簡素化によって割り当て、テールレイテンシー、またはステージ境界が変更されるかどうかを尋ねるのが普通になっています。彼らはパフォーマンスを十分に尊重しており、あまり大声で話す前にそれを測定します。

この習慣は、コードベースの感情的な生活を変えます。プロファイリングによって問題が外部化されるため、エンジニアの防御力が低下します。システムが遅いということは、もはやコードに最後に触れた人に対する非難にはなりません。それは証拠を伴う共有パズルになります。若手エンジニアであっても、名声よりも質問や実験を信頼することを学ぶため、この環境ではより有能になります。このようにして構築されたパフォーマンス文化はより穏やかです。

これが、C++ においてプロファイリングの技術が非常に重要である理由です。この言語は優れたシステムを構築する力を与えてくれますが、卓越性は賢さだけからは生まれません。それは、規律ある気づきの行為を繰り返すことで生まれます。プロファイリングは、エンジニアがマシンがずっと言おうとしていたことに気づくための最良の方法の 1 つです。

ハンズオンラボ: 意図的に非効率なプログラムをプロファイリングする

意図的に少し愚かな小さなプログラムを構築してみましょう。本当のプロファイリングスキルは、間違いが見つけられるほど具体的である場合に最も早く習得できるため、これは便利です。

`main.cpp`

#include <algorithm>
#include <chrono>
#include <iostream>
#include <mutex>
#include <random>
#include <string>
#include <thread>
#include <vector>

std::mutex g_lock;

static std::string make_payload(std::mt19937& rng) {
    std::uniform_int_distribution<int> len_dist(20, 120);
    std::uniform_int_distribution<int> ch_dist(0, 25);

    std::string s;
    const int len = len_dist(rng);
    for (int i = 0; i < len; ++i) {
        s.push_back(static_cast<char>('a' + ch_dist(rng)));
    }
    return s;
}

static uint64_t score_payload(const std::string& s) {
    uint64_t total = 0;
    for (char c : s) {
        total += static_cast<unsigned char>(c);
    }
    return total;
}

int main() {
    constexpr size_t N = 400000;
    std::vector<std::string> rows;
    rows.reserve(N);

    std::mt19937 rng{42};
    for (size_t i = 0; i < N; ++i) {
        rows.push_back(make_payload(rng));
    }

    std::vector<uint64_t> out;
    out.reserve(N);

    auto worker = [&](size_t begin, size_t end) {
        for (size_t i = begin; i < end; ++i) {
            auto copy = rows[i];
            std::sort(copy.begin(), copy.end());
            uint64_t value = score_payload(copy);

            std::lock_guard<std::mutex> guard(g_lock);
            out.push_back(value);
        }
    };

    const auto t0 = std::chrono::steady_clock::now();

    std::thread t1(worker, 0, N / 2);
    std::thread t2(worker, N / 2, N);
    t1.join();
    t2.join();

    const auto t1_end = std::chrono::steady_clock::now();
    const auto ms = std::chrono::duration_cast<std::chrono::milliseconds>(t1_end - t0).count();

    std::cout << "done in " << ms << " ms, values=" << out.size() << "\n";
}

このプログラムには、いくつかの古典的なパフォーマンスの香りが含まれています。

文字列のコピーを繰り返す
ホットパスでの不必要なソート
出力時の中央ロック競合
割り当ての多い文字列の生成

プロファイリング用にビルドする

Linux について:

g++ -O2 -g -fno-omit-frame-pointer -std=c++20 -pthread -o bad_profile main.cpp

MSVC を使用した Windows の場合:

cl /O2 /Zi /std:c++20 main.cpp

最初のプロフィール

Linux について:

perf record -g ./bad_profile
perf report

ワークフローの一部である場合は、フレームグラフを収集します。

注意すべきこと

優れたプロファイルは、システムが神秘的な問題を 1 つも抱えていないことをすぐに示唆するはずです。非常にありふれたエンジニアリングの選択の集合体に苦しんでいます。それは正しい教訓です。

愛好家向けのテストタスク

スレッドごとに 1 つの出力ベクトルを使用して、中央の mutex を削除します。再測定してください。
不要な std::sort を削除し、必要不可欠ではなく劇的なコストがどれだけかかっているかを確認します。
auto copy = rows[i]; を下位コピーの代替ファイルに置き換えて、プロファイルが期待どおりに変更されるかどうかを検査します。
スレッド数を増やして、スループットが拡大するかどうか、または調整が優先されるかどうかを観察します。
-fno-omit-frame-pointer を使用した場合と使用しない場合で同じプログラムを構築し、スタックの品質を比較します。

これら 5 つの手順を注意深く実行すると、プロファイリングツールの名前よりもはるかに価値のあることを学ぶことができます。あなたは、悪い理論が測定の前にどのように消滅するかを学んだでしょう。

まとめ

C++ アプリケーションをプロファイリングする技術は、正直であり続ける技術です。

優れたプロファイリングとは、派手なスクリーンショットを収集したり、すべてのハードウェアカウンターを記憶したりすることではありません。それは、正確な質問をすること、現実的な条件下で測定すること、CPU の作業を待機から分離すること、メモリの動作を理解すること、問題の適切な層に適切なツールを使用することです。

サンプリングを使用して、広範な CPU の真実を見つけてください。 トレースを使用して、時間と調整を理解します。割り当て動作が優先される場合は、ヒープ分析を使用します。キャッシュと推測が現実の話になる場合は、ハードウェアカウンター を使用してください。そして何よりも、最適化する前にプロファイルを作成します。

C++ では、この分野がエレガントな高性能エンジニアリングと高価な迷信の違いとなることがよくあります。

参考文献

Linux Linux マニュアルページ: https://man7.org/linux/man-pages/man1/perf.1.html
Linux Linux マニュアルページ: https://man7.org/linux/man-pages/man1/perf-stat.1.html
インテル VTune プロファイラーのドキュメント: https://www.intel.com/content/www/us/en/docs/vtune-profiler/overview.html
Visual Studio プロファイリング機能ツアー: Visual Studio
トレーシープロファイラーリポジトリ: https://github.com/wolfpld/tracy
Perfetto のドキュメント: https://perfetto.dev/docs/
Brendan Gregg による炎グラフ: https://www.brendangregg.com/flamegraphs.html
Callgrind マニュアル: https://valgrind.org/docs/manual/cl-manual.html
ヒープトラックリポジトリ: https://github.com/KDE/heaptrack
AddressSanitizer のドキュメント: https://clang.llvm.org/docs/AddressSanitizer.html
システムにすでに圧力がかかっている場合はどのように見えるか

C++ プロファイリングの練習は、チームが静かな四半期を望んでいたまさにその瞬間に緊急になる傾向があります。機能がすでに顧客の前に提供されているか、プラットフォームがすでに内部依存性を持っており、システムはその洗練された理論と実行時の動作が丁寧に別々の生活を送っていることを明らかにするために、その特定の週を選択しました。これが、多くの本格的なエンジニアリング作業が和解から始まる理由です。チームは、システムが行うと信じていることと、負荷や変更が加えられた状態、そして誰もが少し創造的になり、賢さが少し低下するような期限の下でシステムが実際に行うことを調和させる必要があります。

実稼働パフォーマンスエンジニアリングにおいて、最も重要なケースは、通常、平均値に隠れたレイテンシのスパイク、悪いテストワークロードによって隠蔽された CPU ホットスポット、および発見が遅すぎたメモリの回帰です。このような状況は、技術的、予算、信頼、ロードマップ、そして場合によっては評判にも影響を及ぼします。技術的な問題は、複数のチームがそれに依存した瞬間に政治的に大きくなり、なぜそれが未だに壁の中でアライグマのように行動するのか誰も完全に説明できません。夜はうるさく、場所を特定するのは難しく、無視すると費用がかかります。

そのため、動作圧力と配送の現実というレンズを通して問題を読むことをお勧めします。設計は理論的には美しくても、運用的には破滅的なものになる可能性があります。別の設計は、ほとんど退屈なものであっても、測定可能で修理可能であり、トレードオフについて誠実であるため、製品を何年も使い続けることができます。真剣なエンジニアは、2 番目のカテゴリーを好むようになります。これにより、壮大なスピーチが減りますが、誰もが受動態で話し、誰が近道を承認したかを誰も覚えていないような緊急の振り返りも減ります。

常に老化を続ける習慣

最初の永続的な方法は、1 つの代表的なパスを常に測定し続けることです。チームは多くの場合、曖昧なテレメトリを収集しすぎたり、意思決定品質のシグナルが少なすぎたりします。本当に重要な道を選び、それを繰り返し測定し、議論が装飾的なストーリーテリングに流れないようにしてください。 C++ プロファイリングの回避策では、通常、有用な尺度は、代表的なワークロード、トレース品質、ホットパスの安定性、結果の再現性です。それらが可視化されると、残りの決定はより人間的になり、神秘的ではなくなります。

2 番目の永続的な習慣は、証拠と約束を分離することです。エンジニアは、システムがその結論を得る前に、ある方向性が正しいと言うよう圧力をかけられることがよくあります。そのプレッシャーに抵抗してください。特にトピックが顧客やお金に近い場合は、最初に狭い証明を作成します。検証されていない大きな野心よりも、検証された小さな改善の方が商業的価値があります。これは、四半期末のレビューで仮説が期限に変わり、組織全体が楽観主義をスケジュール作成の成果物のように扱うようになるまでは、当然のことのように思えます。

3 番目の永続的な習慣は、所有者の言語で推奨事項を書くことです。「パフォーマンスを向上させる」または「境界を強化する」という文章は、感情的には心地よいものですが、運用上は役に立ちません。月曜日の朝に実際に生き残るのは、誰が何を、どの順序で、どのロールバック条件で変更するかを述べた段落です。多くのテクニカルライティングが失敗するのはここです。スケジュール可能であることよりも、先進的に聞こえることを望んでいます。

時間を節約する反例

最も一般的な反例の 1 つは次のようなものです。チームはローカルで大きな成功を収め、システムが理解されたと想定し、測定規律をアップグレードすることなく、アイデアをさらに要求の厳しい環境に拡張します。これは工学的に言えば、ホテルのプールで泳ぎ方を覚えてから、海の天気について自信を持って TED トークをするのと同じことです。水ではなくなるまでは水です。

もう 1 つの反例は、ツールのインフレです。新しいプロファイラー、新しいランタイム、新しいダッシュボード、新しいエージェント、新しい自動化レイヤー、古いラッパーとの調和を約束する新しいラッパー。これらはどれも本質的に悪いことではありません。問題は、誰も明確に名指ししていない境界線の補償を求められたときに何が起こるかということだ。その後、システムはさらに装備され、より印象的になり、場合によってはより理解できるようになります。購入者はこれをすぐに感じます。そのような表現がなくても、積み重ねが決断の代償として高価なものになったことを彼らは嗅ぎ分けることができます。

3 番目の反例は、人間によるレビューを自動化の失敗として扱うことです。実際のシステムでは、多くの場合、人間によるレビューが自動化を商業的に受け入れられる状態に保つための制御となります。成熟したチームは、どこを積極的に自動化するか、どこで承認や解釈を可視化するかを知っています。未熟なチームは、スライド内で「すべて」が効率的に聞こえるため、マシンにすべてを実行させたいと考えます。その後、最初の重大なインシデントが発生し、突然手動レビューが変換体験の誠実さによって再発見されます。

弊社が推奨する配信パターン

仕事が順調に進んでいる場合、最初の成果物は、チームに輪廻議論をやめるのに十分な技術的な読み取りを提供することでストレスを軽減するはずです。その後、次の制限付き実装で 1 つの重要なパスが改善され、再テストによってエンジニアリングとリーダーの両方が方向性を理解できるようになります。その順序は、正確なツールの選択よりも重要です。それは、技術スキルを前進に変えるものだからです。

実際的な観点から言えば、最初のサイクルは狭いことをお勧めします。つまり、アーティファクトを収集し、1 つの厳密な診断を作成し、1 つの限定された変更を出荷し、実際のパスを再テストし、次の決定を平易な言葉で書くというものです。分かりやすい言葉が重要です。買い手が明確さを後悔することはほとんどありません。購入者は、領収書が届く前に感動したことを後悔することがよくあります。

ここでもトーンが重要になります。強力な技術的な作業は、以前にプロダクションに対応したように聞こえるはずです。穏やかで、正確で、誇大宣伝に養われるというよりは、それを少し楽しんでいます。そのトーンは操作信号を伝えます。これは、チームがシステムエンジニアリングの古い真実を理解していることを示しています。マシンは高速であり、ロードマップは脆弱であり、詩的であり続けることを許可されていたすべての仮定に対して、遅かれ早かれ法案が到着します。

これが準備完了であると判断する前に使用するチェックリスト

生産パフォーマンスエンジニアリングにおいて、準備は気分ではありません。それは結果を伴うチェックリストです。 C++ プロファイリングの回避策を広範な展開に向けて準備する前に、可能な限り最良の方法でいくつかのことを退屈なものにしておきたいと考えています。代表的な負荷の下で予測どおりに動作する 1 つのパスが必要です。矛盾しない 1 セットの測定値が必要です。私たちはチームに、境界線がどこにあるのか、そしてそれを壊すことが何を意味するのかを知ってもらいたいと考えています。そして、実装室の外にいる誰かがそこから正しい判断を下せるように、作業の出力が十分に明確であることを望んでいます。

そのチェックリストは通常、代表的なワークロード、トレース品質、ホットパスの安定性、結果の再現性について触れます。数値が正しい方向に進んでいるにもかかわらず、チームが即興でシステムを説明できない場合、作業の準備ができていません。建築が印象的に聞こえても、現場からのささやかな反例に耐えられない場合、その作品はまだ準備ができていません。実装は存在するが、ロールバックの話がタイムスタンプ付きの祈りのように聞こえる場合は、作業の準備ができていません。これらはいずれも哲学的な反論ではありません。それらは単に、高価なサプライズが登場する傾向にある形式にすぎません。

これは、チームが実際の問題を解決しているのか、それともその問題に近い能力を単に練習しているだけなのかを発見する場所でもあります。非常に多くの技術的取り組みは、誰かが再現性、生産の証拠、または予算に影響を与える決定を要求するまでは、成功したように感じられます。その瞬間、弱い作品はぼやけてしまい、強い作品は妙に地味になってしまいます。プレーンが良いです。プレーンとは通常、システムがカリスマ性に依存するのをやめたことを意味します。

結果について話すことを推奨する方法

最終的な説明は、リーダーシップ会議に耐えられるほど簡潔であり、エンジニアリングレビューに耐えられるほど具体的である必要があります。それは思っているよりも難しいことです。過度に専門的な言葉は順序を隠します。過度に単純化された言葉はリスクを隠します。適切な中間点は、勝ち誇ったような感じではなく、穏やかに聞こえる方法で、道筋、証拠、限界のある変化、そして次に推奨されるステップを説明することです。

このような構造を推奨します。まず、どのパスが評価されたのか、そしてそれがなぜ重要なのかを述べます。次に、その道に関して何が間違っていたのか、何が不確実だったかを述べます。 3 番目に、何が変更、測定、または検証されたかを述べます。 4番目に、何が未解決のままなのか、そして次の投資で何が買えるのかを述べます。この構造が機能するのは、エンジニアリングと購買行動の両方を尊重しているからです。エンジニアは詳細を求めています。購入者は順序付けを望んでいます。サプライズを楽しんでいるふりをしている人も含めて、誰もがサプライズを減らしたいと思っています。

このように話すことの隠れた利点は文化的なものです。技術的な作業を明確に説明するチームは、通常、それをより明確に実行します。彼らは曖昧さを洗練されたものとして扱うのをやめます。専門用語では印象を与えることが難しくなり、難しいシステムでは信頼されやすくなります。これは、エンジニアリングの成熟度の最も過小評価されている形態の 1 つです。

私たちがまだ偽造を拒否したいもの

システムが改善された後でも、成熟したチームは生産パフォーマンスエンジニアリングにおいて不確実性を正直に保ちます。弱い測定にはより明確な証拠が必要であり、厳しい境界には平易な言葉が必要で、より穏やかなデモには実際の運用準備が必要です。ある程度の不確実性は軽減する必要があります。正直に名前を付けなければならない人もいます。この 2 つの仕事を混同すると、立派なプロジェクトが高価なたとえになってしまいます。

同じルールが C++ プロファイリングの実践に関する決定にも適用されます。チームに再現可能なベンチマーク、信頼できるロールバックパス、または重要なインターフェイスの明確な所有者が依然として不足している場合、最も役立つ出力は、より大きな約束ではなく、より明確なノーまたはより狭い次のステップである可能性があります。この規律により、技術的な作業が改善を目的とした現実と一致した状態に保たれます。

このように作業すると、不思議な安心感があります。システムが楽観的なストーリーテリングに依存しなくなると、たとえ作業が困難なままであっても、エンジニアリングに関する会話はよりシンプルになります。そして生産現場では、それは多くの場合、ささやかな恵みとして数えられます。

プロファイリング作業に関する追加の注意事項

良好なプロファイリング結果は、きれいなフレームグラフではありません。それは狭義の決定です。作業が引き渡されるまでに、チームはどのワークロードが代表的なのか、どのホットスポットが原因なのか、どの発見がノイズなのか、どの最適化が最初に取り組む価値があるのかを把握している必要があります。厳しいように聞こえますが、ここでは厳しさが役に立ちます。誰もが熱を目にし、どの火が重要であるか誰も同意できなくなった瞬間、パフォーマンスの仕事は高価になります。

また、修正されていない点を書き留めておくことをお勧めします。それは奇妙に強力な規律です。どの疑わしい関数が測定され免責されたのか、どのアロケーター理論が追跡できなかったのか、どの劇的な書き換え提案が不要であることが判明したのかを明確に述べてください。行き止まりに名前が付けられると、エンジニアは冷静になります。チームが気分ではなく証拠に従って最適化しているのを見ると、リーダーシップはより冷静になります。 C++ システムでは、冷静さは過小評価されています。多くの場合、それはテストハーネスやあまりロマンチックではない事実が満載のノートに偽装されて到着します。

実際の技術レビューからのフィールドノート

C++ システムの配信では、デモが実際の配信、実際のユーザー、実際の運用コストを満たしたときに、作業が本格化します。それは、きちんとしたアイデアがシステムのように動作し始める瞬間であり、システムは有名なドライなユーモアのセンスを持っています。彼らはキックオフデッキがどれほどエレガントに見えるかなど気にしません。彼らは、境界、障害モード、ロールアウトパス、そしてスタックに関する新しい神話をでっち上げずに次のステップを説明できる人がいるかどうかを重視しています。

The Art of Profiling C++ Applications の場合、実際的な問題は、ロードマップ、プラットフォーム、またはセキュリティレビューにすでにプレッシャーを感じている購入者に対して、より強力な配信パスを作成できるかどうかです。その購入者は、霧の中に磨き上げられた講義を必要としません。彼らは使用できる技術的な読み取りを必要としています。

最初に検査するもの

まず、ネイティブ推論、プロファイリング、HFT パス、DEX システム、および C++/Rust モダナイゼーションの選択肢という 1 つの代表的なパスから始めます。その道は測定するには十分に狭く、真実を明らかにするには十分に広くなければなりません。最初のパスでは、割り当て動作、p99 レイテンシ、プロファイル証拠、ABI 摩擦、および信頼性の解放をキャプチャする必要があります。これらの信号が利用できない場合、プロジェクトは依然として白衣を着た意見がほとんどであり、意見はそれ自体を戦略として宣伝してきた長い歴史があります。

最初の有用な成果物は、ベンチマーク、プロファイリング証拠、および範囲を絞った実装計画を含むネイティブシステムの読み取りです。計画会議で誰もが期待したとおりに動作するのではなく、システムが動作するとおりに示す必要があります。トレース、リプレイ、小さなベンチマーク、ポリシーマトリックス、パーサーフィクスチャ、または反復可能なテストは、多くの場合、別の抽象的なアーキテクチャの議論よりも早くストーリーを伝えます。良い工芸品は驚くほど失礼だ。彼らは希望的観測を中断します。

時間を節約する反例

高くつく間違いは、最初の有用な証明よりも大きな解決策で応答することです。チームはリスクや遅延を認識すると、すぐに新しいプラットフォーム、書き換え、全面的なリファクタリング、またはヨガをしているような名前の調達しやすいダッシュボードに手を出します。場合によっては、そのスケールが正当化されることもあります。多くの場合、これは測定を延期する方法です。

より良い動きはより小さく、より鋭いです。境界に名前を付けます。証拠を捕らえます。重要なことを 1 つ変更します。同じパスを再テストします。次に、次の投資がより大きな投資に値するかどうかを決定します。このリズムは変革プログラムほど劇的ではありませんが、予算、リリースカレンダー、および制作上のインシデントに影響されても存続する傾向があります。

弊社が推奨する配送パターン

最も信頼性の高いパターンには 4 つのステップがあります。まず、代表的な成果物を収集します。次に、これらのアーティファクトを 1 つの難しい技術診断に変換します。 3 番目に、1 つの限定された変更またはプロトタイプを出荷します。 4 番目に、同じ測定フレームで再テストし、次の決定をわかりやすい言葉で文書化します。このクラスの作業では、CMake フィクスチャ、プロファイリングハーネス、小さなネイティブ再現、およびコンパイラ/ランタイムノートの方が、一般的な方向性に関する別の会議よりも価値があるのが通常です。

分かりやすい言葉が重要です。購入者は出力を読んで、何が変化したのか、何が依然としてリスクが残っているのか、何を待てばよいのか、次のステップで何を購入するのかを理解できる必要があります。推奨事項をスケジュールしたり、テストしたり、所有者に割り当てることができない場合でも、それは装飾的すぎます。装飾的なテクニカルライティングは楽しいものですが、制作システムがその心地よさをもたらすとは知られていません。

結果が役に立ったかどうかを判断する方法

The Art of Profiling C++ Applications の場合、結果により配信速度、システムの信頼性、商用化の準備の 3 つのうち少なくとも 1 つが改善されるはずです。これらのどれも改善されない場合、チームは何かを学んだ可能性がありますが、購入者はまだ有用な結果を受け取っていません。その区別が重要です。学ぶことは崇高なことです。有料のエンゲージメントもシステムを動かすはずです。

最も強力な成果は、より狭いロードマップ、危険なパスの自動化の拒否、モデルの境界の改善、よりクリーンなネイティブ統合、書き換えがまだ必要ではないという慎重な証拠、またはリーダーが実際に資金を提供できる短い修復リストなどです。真剣なエンジニアリングとは、より良い意思決定の連続であり、ツールの仮装コンテストではありません。

SToFU はそれにどうアプローチするか

SToFU は、これを最初に配信の問題として扱い、次にテクノロジーの問題として扱います。私たちは関連するエンジニアリングの深さをもたらしますが、その取り組みは、経路、境界、リスク、測定、そして行う価値のある次の変更などの証拠に基づいて行われます。重要なのは、ハードワークを簡単に思わせないことです。重要なのは、次の重大な行動を実行できるほど明確にすることです。

それは、購入者が通常最も重視する部分です。彼らはどこでも意見を採用できます。彼らに必要なのは、システムを検査し、実際の制約に名前を付け、適切なスライスを構築または検証し、通話終了後の混乱を軽減する成果物を残すことができるチームです。騒がしい市場では、明確さはソフトスキルではありません。それはインフラです。

C++ アプリケーションのプロファイリングの技術

C++ アプリケーションのプロファイリングの技術

導入

ツールが開く前にプロファイリングが開始される

信頼できる測定環境を構築する

仕事と待ち時間を区別する方法を学ぶ

ツールは解釈の習慣ほど重要ではない

C++ パフォーマンス問題の特徴的な形状

誤診のケーススタディ

チームの習慣としてのプロファイリング

ハンズオンラボ: 意図的に非効率なプログラムをプロファイリングする

`main.cpp`

プロファイリング用にビルドする

最初のプロフィール

注意すべきこと

愛好家向けのテストタスク

まとめ

参考文献

システムにすでに圧力がかかっている場合はどのように見えるか

常に老化を続ける習慣

時間を節約する反例

弊社が推奨する配信パターン

これが準備完了であると判断する前に使用するチェックリスト

結果について話すことを推奨する方法

私たちがまだ偽造を拒否したいもの

プロファイリング作業に関する追加の注意事項

実際の技術レビューからのフィールドノート

最初に検査するもの

時間を節約する反例

弊社が推奨する配送パターン

結果が役に立ったかどうかを判断する方法

SToFU はそれにどうアプローチするか

Philip P. – CTO

関連記事

C++、Rust、および Windows Kernel: 安全性が役立ち、境界が依然として厳しい場所

C++、Rust、および高頻度取引: 決定論的なレイテンシーが議論を決定する場合

システムの最新化における C++ と Rust : 書き直すか、ラップするか、それとも放置するか?

会話を始める

C++ アプリケーションのプロファイリングの技術

C++ アプリケーションのプロファイリングの技術

導入

ツールが開く前にプロファイリングが開始される

信頼できる測定環境を構築する

仕事と待ち時間を区別する方法を学ぶ

ツールは解釈の習慣ほど重要ではない

C++ パフォーマンス問題の特徴的な形状

誤診のケーススタディ

チームの習慣としてのプロファイリング

ハンズオン ラボ: 意図的に非効率なプログラムをプロファイリングする

main.cpp

プロファイリング用にビルドする

最初のプロフィール

注意すべきこと

愛好家向けのテストタスク

まとめ

参考文献

システムにすでに圧力がかかっている場合はどのように見えるか

常に老化を続ける習慣

時間を節約する反例

弊社が推奨する配信パターン

これが準備完了であると判断する前に使用するチェックリスト

結果について話すことを推奨する方法

私たちがまだ偽造を拒否したいもの

プロファイリング作業に関する追加の注意事項

実際の技術レビューからのフィールドノート

最初に検査するもの

時間を節約する反例

弊社が推奨する配送パターン

結果が役に立ったかどうかを判断する方法

SToFU はそれにどうアプローチするか

Philip P. – CTO

関連記事

C++、Rust、および Windows Kernel: 安全性が役立ち、境界が依然として厳しい場所

C++、Rust、および高頻度取引: 決定論的なレイテンシーが議論を決定する場合

システムの最新化における C++ と Rust : 書き直すか、ラップするか、それとも放置するか?

会話を始める

ハンズオンラボ: 意図的に非効率なプログラムをプロファイリングする

`main.cpp`