ときには早すぎる最適化も楽しい (2025)

接続性監視システムの ICMP Echo Request 記録構造体を縮小する過程で、リングバッファのメモリ使用量が 12KiB から 4KiB に減少
sent_ns と received_ns の両方を保存せず、受信後は 遅延時間 だけを残すように共用体を使うと、配列サイズが 8KiB に縮小
ナノ秒精度の代わりに 100 マイクロ秒単位を使い、received をビットフィールドに変えたが、構造体パディング のため追加の削減は発生しなかった
送信元アドレスの代わりに ICMP identifier の一部の意味を 4 ビットカウンタで置き換えると、構造体は 8 バイトになり、512 要素の配列は 4KiB になった
アプリケーションにはメモリ制約がなかったため実用上の必要性はなかったが、フィールド配置やビットアクセスのコストまで検討する最適化実験になった

問題設定: ping 記録を保存する方法

接続性監視システムは複数のサーバーに ICMP Echo Request を送り、1 分・5 分・15 分区間の遅延時間とパケット損失の平均を観測する
最初に思いついた保存方法は 512 エントリのリングバッファで、各エントリは送信時刻、受信時刻、送信元アドレス、シーケンス番号、受信有無を持つ
初期構造体配列 pings_rb[512] のサイズは 12KiB と測定された

struct ping_timestamp {
    uint64_t sent_ns;
    uint64_t received_ns;
    in_addr_t source_addr;
    uint16_t seq_no;
    bool received;
};

最初の削減: 送信時刻と経過時間を共用体に統合

実際に残したい値は受信後の received - sent の遅延時間なので、送信時刻と経過時間を同時に保持する必要はない
sent_ts と elapsed_ts を共用体で束ねた構造体は、同じスロットを送信前には送信時刻として、受信後には経過時間として使う
この変更後、512 要素の配列サイズは 12KiB から 8KiB に減少した

struct ping_timestamp_2 {
    union {
        uint64_t sent_ts;
        uint64_t elapsed_ts;
    };
    in_addr_t source_addr;
    uint16_t seq_no;
    bool received;
};

2 回目の試み: 精度縮小とビットフィールド

ping 時間は数十・数百・数千ミリ秒単位で測定されるため、ナノ秒精度をすべて保存する必要はない
時間単位を 100 マイクロ秒、つまり 0.1ms 単位に変えると、43 ビットで最大 20 年間の ping 追跡が可能になる
received の真偽値に 8 ビットを使うのは過剰なので、ビットフィールドを適用した
しかし ping_timestamp_3 の配列サイズも 8KiB のままで、追加の削減は発生しなかった

struct ping_timestamp_3 {
    uint64_t sent_or_elapsed_ts: 43;
    uint64_t received: 1;
    uint64_t seq_no: 16;
    in_addr_t source_addr;
};

構造体パディングのため縮まらなかったサイズ

ping_timestamp_2 には最後にアラインメント要件を満たすためのパディングバイトが付く
ping_timestamp_3 は先頭 8 バイトに時間、受信有無、シーケンス番号を入れるが、その後ろに送信元アドレスとパディングが残る
ビットフィールドを適用しても 36 ビットのパディングが残り、構造体全体のサイズは縮まらない
単純に bool をビットに縮めるだけでは、メモリ配置とアラインメントの問題は解決しない

送信元アドレスの削除と 4 ビットカウンタ

製品がモバイルデータネットワーク上で動作している間は送信元アドレスが頻繁に変わるため、従来の構造体では送信元アドレスを保存していた
アドレスが変わるとシーケンス番号もリセットされ、過去には異なる送信元アドレスと同じシーケンス番号を持つパケットが同時に処理されたことがあった
ICMP Echo Request には、アプリケーションが自分の送ったパケットを識別できる 16 ビットの identifier フィールドがある
16 ビット全体を使う必要はないため、余った 4 ビットを送信元アドレス変更時に増加するローリングカウンタとして使う
このカウンタは、アプリケーションの別の場所で監視されている送信元アドレス変更に合わせて増加する

struct ping_timestamp {
    uint64_t elapsed_or_sent_ts : 43;
    uint64_t received : 1;
    uint64_t counter: 4;
    uint64_t seq_no: 16;
};

最終結果とフィールド配置

最終構造体は送信元アドレスフィールドを削除し、64 ビット内に時間、受信有無、カウンタ、シーケンス番号を収める
512 要素のリングバッファ配列サイズは 4KiB となり、1 ページ分のデータに収まった
初期の 12KiB と比べて合計 8KiB を削減した
フィールド順は seq_no が 16 ビット境界に合うよう調整され、ロード時にシフトなしで単一の ldrh 命令で読める
elapsed_or_sent_ts を読むときにはマスクだけが必要になる

追加最適化: 受信ビットアクセスのコスト削減

2025-06-21 の追記では、received と counter の順序を入れ替えると、received ビットへのアクセスはシフトとマスクの代わりにシフトだけで済む
この変更は received アクセスをより安くする一方で、counter を読むときに received ビットをマスクで取り除くコストを生む
2025-06-22 の追記では、counter を received が真のときだけ読む条件を利用する
received の意味を反転して not_received にすると、not_received が 0 かどうかを確認する条件の内側では、counter のマスクがコンパイラによって完全に削除される

struct ping_timestamp {
    uint64_t elapsed_or_sent_ts : 43;
    uint64_t counter: 4;
    uint64_t not_received : 1;
    uint64_t seq_no: 16;
};

結論

最適化の結果、メモリ使用量は 12KiB から 4KiB に減ったが、アプリケーション自体はメモリ制約を受けていない
実際の必要性とは別に、構造体レイアウト、パディング、ビットフィールド、命令レベルのアクセスコストを検討する実験になった
最後の注釈では、「問題」という表現も緩い意味で使っており、ベンチマークすらしていないと明かしている

ときには早すぎる最適化も楽しい (2025)

問題設定: ping 記録を保存する方法

最初の削減: 送信時刻と経過時間を共用体に統合

2 回目の試み: 精度縮小とビットフィールド

構造体パディングのため縮まらなかったサイズ

送信元アドレスの削除と 4 ビットカウンタ

最終結果とフィールド配置

追加最適化: 受信ビットアクセスのコスト削減

結論

1件のコメント

Lobste.rsの意見

ときには早すぎる最適化も楽しい (2025)

問題設定: ping 記録を保存する方法

最初の削減: 送信時刻と経過時間を共用体に統合

2 回目の試み: 精度縮小とビットフィールド

構造体パディングのため縮まらなかったサイズ

送信元アドレスの削除と 4 ビットカウンタ

最終結果とフィールド配置

追加最適化: 受信ビットアクセスのコスト削減

結論

関連記事

1件のコメント

Lobste.rsの意見