- 大型ハドロン衝突型加速器で発生する膨大なデータを、シリコンチップに直接実装された超小型AIモデルでリアルタイムにフィルタリングし、科学的に意味のある事象だけを選別
- 毎秒数百テラバイトのデータストリームを処理するため、GPUやTPUではなくFPGA・ASICベースのハードウェアを使用し、ナノ秒単位のレイテンシで判定を実行
- HLS4MLツールにより、PyTorchやTensorFlowのモデルを合成可能なC++コードへ変換してチップに直接展開し、ルックアップテーブルベースの構造によって浮動小数点演算なしで即座に出力を生成
- LHCのLevel-1 Triggerは約1,000個のFPGAで構成され、50ナノ秒以内にデータを評価し、その後の段階では25,600個のCPUと400個のGPUが追加のフィルタリングを実行
- CERNは2031年のHigh-Luminosity LHCアップグレードに備えて次世代の超小型AIモデルを開発中であり、このアプローチは自律システム・医療画像など超低遅延アプリケーション分野へ拡張できる可能性がある
概要
- CERNは超小型人工知能モデルをシリコンチップに直接実装し、**大型ハドロン衝突型加速器(LHC)**で発生する膨大なデータをリアルタイムでフィルタリングしている
- 衝突データのうち科学的に意味のある事象だけを選択し、残りは即座に破棄する
- 毎秒数百テラバイトに達するデータストリームを処理するため、GPUやTPUではなくFPGAおよびASICベースのカスタムハードウェアを使用する
- このようなハードウェア内蔵型AIモデルは、検出器レベルでマイクロ秒〜ナノ秒単位のレイテンシで判定を行う
- このリアルタイム選別プロセスは、現代科学において最も高い計算要求を持つ作業のひとつと評価されている
データ処理の課題
- LHCは年間約40,000エクサバイトの生データを生成し、これは現在のインターネット全体の約4分の1に相当する規模である
- 陽子バンチが27kmのリング内部を光速に近い速度で移動し、25ナノ秒ごとに交差する
- 実際の衝突はまれだが、1回の衝突ごとに数メガバイトのデータが発生する
- 全データを保存または処理することは不可能なため、約0.02%の事象だけが保存される
- 最初のフィルタリング段階であるLevel-1 Triggerは約1,000個のFPGAで構成され、50ナノ秒以内にデータを評価する
- AXOL1TLアルゴリズムがこのチップ上で直接動作し、科学的に有望な事象を識別して残りは即座に破棄する
AIアプローチと技術スタック
- CERNのAIモデルは超小型・高効率な構造として設計されており、一般的な産業向け大規模モデルとは異なり、検出器レベルの超低遅延推論に最適化されている
- モデルはHLS4MLオープンソースツールを通じて、PyTorchやTensorFlowベースのモデルを合成可能なC++コードへ変換する
- 変換されたコードはFPGA、SoC、ASICに直接展開され、GPUやTPUよりはるかに少ない電力とシリコン面積で動作する
- チップ資源のかなりの部分は、**ニューラルネットワーク層ではなく事前計算されたルックアップテーブル(lookup table)**の実装に使われる
- このテーブルは一般的な入力パターンの結果をあらかじめ保存しておき、ほとんどの検出器信号に対して浮動小数点演算なしで即座に出力を生成する
- このようなハードウェア優先の設計思想が、ナノ秒単位のレイテンシ達成を可能にしている
- 2段階目のフィルタリングであるHigh-Level Triggerは、25,600個のCPUと400個のGPUで構成されたコンピューティングファーム上で動作する
- Level-1 Triggerの後でも毎秒数テラバイトのデータを処理し、1日あたり約1ペタバイトの科学データへ圧縮する
今後の計画
- LHCは**2031年稼働予定のHigh-Luminosity LHC(HL-LHC)**アップグレードを準備している
- 衝突あたりのデータ量は現在より約10倍増加する見込みで、事象サイズもはるかに大きくなると予想される
- CERNはこれに備え、次世代の超小型AIモデルとFPGA・ASIC実装の最適化を進めている
- リアルタイムトリガーシステム全体を強化し、はるかに高いデータ率でも超低遅延性能を維持できるよう設計している
- こうした準備は、今後数十年にわたり粒子物理学の新たな発見を継続的に可能にする中核基盤と見なされている
意義と波及効果
- 世界のAI産業が大規模モデルの拡張に注力する一方で、CERNは最も小さく、速く、効率的なAIモデルを開発している
- これらのモデルはFPGAやASICに直接実装され、「Tiny AI」の実用例として評価されている
- LHCトリガーシステムにおいて、これらのモデルは一般的なAIアクセラレータでは不可能な水準の性能を達成している
- ナノ秒単位の意思決定が必要な極限環境で、最小の資源で最大の効率を実現する
- このアプローチは粒子物理学を超えて、自律システム・高頻度取引・医療画像・航空宇宙など、超低遅延のリアルタイム推論が必要な分野にも応用できる可能性がある
- エネルギー効率と計算資源の削減が重要になる時代において、CERNのモデルは大規模化ではなく極端な特化とハードウェアレベル最適化という代替案を提示している
1件のコメント
Hacker News の反応
この論文の2つのモデルのうち1つの著者です。
誤解があるので整理すると、これらのモデルはシリコンに直接刻まれているのではなく、FPGA上に配置されたものです。
axol1tl の場合、重みは fabric にハードワイヤされていますが、それでも再プログラム可能です。
CERN の smartpixel や HG-Cal readout のようなプロジェクトは、実際のシリコンをターゲットに進行中です。
関連スライド: CERN 発表資料
論文の承認プロセスは長いですが、数か月以内により包括的なバージョンが出る予定です。
モデルは当初は単純なVAE ベースの MLPで、v5 からはVICREG ブロックを追加し、40MHz で2クロック以内に動作します。
その後、hls4ml-da4ml、関連論文 を通じて FPGA に配置しました。
CICADA モデルは VAE をベースに、教師-生徒構造で異常検知スコアを教師あり学習として蒸留しています。
参考スライド: CICADA 発表資料
私の研究は QAT(高精度量子化学習)と分散演算ベースの NN デプロイに焦点を当てています。
関連論文: arXiv:2405.00645, arXiv:2507.04535
私も博士課程の初期にGNN アクセラレータを FPGA で実装したことがあり、CERN/Fermilab 側と協業したことがあります。
今は HLS と EDA 関連の研究に方向転換しましたが、最近のトリガーシステムをハードウェアで実装する際の主な限界が気になります。
商用 HLS ツールのバグやデバッグの難しさ、長いビルド時間などが大きな制約のように感じます。
こうした理由でEDA ツーリングがボトルネックになっているのか、それとも別の技術的要因のほうが大きいのか知りたいです。
彼らは畳み込みレイヤを含むオートエンコーダベースのニューラルネットワークを使い、過去の実験データで学習させていました。
関連論文
どの AI アルゴリズムを使ったのかを明確に説明していたら、ずっと良い記事になっていたと思います。
実は現代 CPU の**分岐予測器(branch predictor)**もパーセプトロンを使っています。
Delphi 時代にもHiggs 選別用 ANNの論文があり、こうした試みが LHC へとつながりました。
関連動画を共有します。
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk ページ
このプロジェクトは 40MHz で動作しますが、私が作った CflexHDL ツールは148MHz でリアルタイムレイトレーシングを実現します。
デモ動画
このツールは Nlnet Foundation の支援を受けており、CERN AI ツールとの統合も計画しています。
オープンソースツールチェーンの重要性を強調したいです。
記事にはややAI の誇張があります。
実質的には機械学習で得たハードコードされたロジックが入ったチップと見なせます。
実際には推論専用の状態機械に近く、環境が変われば再学習ではなくハードウェアのリスピンが必要になります。
こういう状況では、「AI」という言葉が単なる修飾語ではないことを実感します。
興味深いのは、一般的な AI とは逆に、モデルがハードウェア制約に耐えられることで存在意義を証明しなければならない点です。
こうした環境ではレイテンシだけでなく、決定性、電力予算、極端な負荷下での安定性のほうが重要です。
「FPGA がシリコンに刻まれた」という表現は奇妙に聞こえます。
CERN が ASIC をテープアウトするなら驚くべきことです。
関連発表資料
これは今よく言われる LLM ではなく、FPGA に実装されたニューラルネットワークです。
この場合 ASIC が適切かどうかは疑問です。
フィードバックありがとうございます。
記事内容をVAE ベースの AXOL1TL アーキテクチャに修正し、関連する arXiv 論文 と Thea Aarrestad の講演動画を追加しました。
CERN は今でもGPU を広範に利用しており、状況に応じて COTS GPU/CPU を積極的に活用しています。