- 巻き戻し(リバーシブル)コンピューティングは、計算を逆方向に実行してデータを削除せずにエネルギーを節約できる理論的手法であり、AIのエネルギー消費問題を解決する代替案として注目されている
- 既存のコンピューターは情報を削除する際に必然的に熱(エネルギー)を放出し、これは物理的限界(ランダウアーの原理)によって避けられない
- Uncomputationの概念は、計算結果だけを残し、それ以外は計算を逆にたどって情報損失なしに処理するものだが、速度やメモリコストなど実用上の限界がある
- 最近では、AIのように並列計算が多い処理で、リバーシブルチップを低速で多数動作させるとエネルギー節約効果が大きいことが実証的に示された
- 産業界と研究者が実際の商用リバーシブルチップ開発に乗り出しており、AIのエネルギー効率革命が現実になる可能性が高まっている
コンピューター演算における根本的なエネルギー損失
- コンピューターが2つの数を足すとき、たとえば 2 + 2 = 4 のように、2つの入力から1つの出力だけが残る
- このように一部の情報が失われることで計算は不可逆性を帯び、削除された情報が熱エネルギーに変わる
- ほとんどのコンピューターはこの方式で動作しているため、根本的に常にある程度の**情報損失(熱の発生)**が避けられない
Landauerによる可逆コンピューティングの提案と限界
- Landauerは、情報を削除せずにすべての計算結果を記録することで、エネルギー損失を減らすコンピューティングを考えた
- しかし、このようなコンピューターは現実的にはメモリがすぐにいっぱいになって使えなくなるため、実用性に欠けることが分かった
- Landauerは最終的に、可逆コンピューティングは行き止まりだと判断した
Bennettのuncomputation(逆計算)というアイデア
- IBMのCharles Bennettは1973年、計算結果だけを保存し、残りは計算過程を逆向きに実行(uncomputation)して消す方法を提案した
- HanselとGretelがパンくずを拾い集めて戻るような比喩のとおり、必要なデータだけを残して情報損失なしに除去することが可能になる
- この方式には計算時間が2倍かかるという欠点があり、非効率と見なされていた
実用性を高めた研究の登場
- Bennettは1989年、やや多めのメモリを使えば計算時間を大幅に短縮できることを明らかにした
- その後、研究者たちはメモリ・時間の最適化手法の研究を続けた
- しかしコンピューターは、データ削除以外にもトランジスタの接続方式そのものの非効率によってエネルギーが失われる構造になっている
- 実質的な省エネ型可逆コンピューターを作るには、設計段階から低熱損失構造が必要となる
MITのプロトタイプチップと産業界の反応
- 1990年代、MITのエンジニアたちは回路効率を高めたプロトタイプチップを製作した
- Frankは博士課程の学生として参加し、可逆コンピューティング分野の代表的研究者として活動した
- しかし既存チップの性能が急速に向上していた当時の産業界では、この理論的代替案に対する関心の低さから支援は乏しかった
- Frankも一時期研究を離れ、別の道を模索した
- だが、回路の微細化が限界に近づくにつれ、エネルギー効率の問題への関心が急速に高まった
可逆コンピューティングのエネルギー効率とAIへの適用可能性
- 2022年、CambridgeのHannah Earleyが可逆コンピューターのエネルギー効率を精密に分析した
- 可逆コンピューターは従来方式に比べて熱放出が少ないものの、完全な無発熱は不可能である
- 特に可逆コンピューターでは、速度を落とすほど熱放出が減る現象が明らかになった
- AI計算は並列処理環境で行われるため、それぞれのチップを低速で動かし、チップ数を増やすほど総エネルギー消費を減らせる可能性がある
- 低速動作によって冷却コストも下がり、チップの高密度配置、空間・材料の節約といった効果も期待できる
商用化の動きと展望
- 投資家が注目し始め、EarleyとFrankはVaire Computingを創業して商用可逆チップの開発に着手した
- コペンハーゲン大学のMogensenらは、可逆プロセッサが実務に適用されることに大きな期待を示している
- 数十年にわたり理論にとどまっていた可逆コンピューティングが、AIとエネルギー効率の分野で実質的な革新をもたらすかが注目されている
結論
- リバーシブルコンピューティングは、情報削除時の発熱というコンピューターの物理的限界を乗り越えうる実践的手法として、AI時代の大規模な省エネ技術として注目されている
- チップを低速かつ並列に動作させる方式は、AI計算の構造的特性と結びつくことで、実際の商用化が目前に迫っている
1件のコメント
Hacker Newsの意見
Stephen Baxterの小説 Timeでは、はるか遠い未来、すべての恒星が消え、ブラックホールもすべて蒸発した後、人類の子孫が最大エントロピー宇宙に取り残されるという展開がある。自由エネルギーが完全に枯渇した状態で、この子孫たちは巨大シミュレーションの中で可逆計算(エネルギー消費なしで動作)だけを用いて同じ出来事を繰り返しながら生きるというコンセプトが登場する。計算結果を uncompute して再び compute する形で、同一のイベントループを繰り返す
ソフトウェアエンジニアの立場からは、この話には理解しづらい部分があるとの指摘。情報を削除すると電子が失われるという概念が最初に出てきて混乱した、電子は至る所で失われるし、ほとんどのゲートは電流の否定で動作するのだから、そうした行為はすべて悪いことなのか、と疑問を呈している。メモリの変化をすべて記録すればなぜ熱損失を防げるのか、すべてのメモリを維持し続けるならそのほうが余計にエネルギーを消費しないのか、さらにそもそも計算で過去へ巻き戻る必要性に実用性があるのかも疑問視している
理論上、情報を忘れないコンピュータはほとんど電力を使わず、したがって熱も発生しないコンピュータを実現できる。この種のコンピュータは可逆(adiabatic)コンピューティングと呼ばれ、すべての演算ゲートが巻き戻し可能でなければならない。入力状態の設定や出力のコピーなど、ごく初期および最終段階では依然としてエネルギーが必要。現実には、電力消費の大半はロジックゲートでの情報「削除」ではなく、配線抵抗のような部分で失われる。完全に可逆なCPUを作るには、超伝導配線・素子などの特殊なハードウェアが必要になる。また、計算を巻き戻す必要があり、それも簡単な問題ではない。あるいは状態を消去してエネルギー消費を受け入れるしかない。現実の例としては量子コンピュータがあり、量子論理ゲートはすべての演算が可逆で逆方向実行も可能
熱力学の観点では、可逆プロセスが理論上もっとも効率的であり、これはエントロピーと関係している。情報を消去すると可逆でなくなるため、発熱は避けられない。ただし、これらはすべて徹底して理論的な話であり、現実のコンピュータはこの限界にはまったく達していない。実際の論理素子は AND、OR、NAND など、ほとんどが孤立系では不可逆な演算構造
ハードディスクやSSDのような永続ストレージは、データ保持のためには電力をまったく消費しないので熱も発生しないという指摘。データを消去したり上書きしたりするときには必然的にエネルギーが必要で、その過程で多くの熱が発生する。放熱問題は、より微細なチップスケーリングの障害要因でもある。情報を消去しないコンピュータを設計できれば発熱は大幅に減り、その結果としてチップ性能の向上、消費電力の削減、スケーリングの可能性が開ける
省エネルギーという動機にはやや懐疑的だが、可逆なディープラーニングアーキテクチャを実装すること自体はかなり興味深い研究テーマだという意見。実際、2019〜2021年の invertibleworkshop シリーズ などで活発に議論されていた。最近流行している diffusion モデルも、連続的な normalizing flow の特殊ケースと見なせるため、理論上は計算が可逆といえる。実際にプロダクションで使われる distill 済みモデルはほとんどそうではないと思う。微分方程式シミュレーションも浮動小数点の丸め誤差のため、実際には逆方向計算が正確に一致しにくいが、精巧に作れば bit-to-bit で完全に可逆なシミュレーション も可能
計算に方向性があるとはどういう意味かを考えている。因果関係のようにも見えるが、実際には入力と出力の問題に思える。結局はプログラムを先に実行してみないとわからない気がするし、状態を保存しておけばバックトラッキングがしやすくなる程度にしか感じられない
そう、ただしこれは物理レベルの話なので、別個のハードウェアが必要。情報削除(例: AND 演算)は熱を発生させるため、Fredkin ゲートのような別種の論理ゲートが必要
実際にはすべての計算には方向性がある。このテーマに非常に興味を持っている立場から言うと、たとえば関数 f(x) -> y 自体が方向を示している。逆方向も当然できるのが望ましいが、逆写像できない場合も常に存在する。たとえば f(x)=mx+b なら逆関数は簡単に求まる(ただし m=0 ではない場合)。一方で f(x)=x^2 だと、f(x) から x を復元するとき ±x の両方が該当して一意にならない。関数の像と原像の概念を当てはめられる。これは P=NP 問題とも密接に関係している。機械学習では Normalizing Flow が invertible で、diffusion model は reversible な構造、GAN-Inversion など、MLコミュニティで "inverse problem" という用語が使われることに個人的な不満がある。この概念そのものを理解すると、なぜ予測は一方向だけ正確で逆方向では失敗するのかがわかる。結局これは因果推論の問題に行き着く。物理学では方程式を変形して因果地図を作るのが主な目標だが、エントロピーや量子力学などに固有の難題が生じる。例として、気体分子の状態計算を逆算すると、一意の解ではなく複数の状態が出てくる。微分積分の例のように、differentiation は可逆ではなく、f(x)+C はすべて同じ微分値を与える。つまり一方向の情報損失が起きる。複数時点の状態をサンプリングすれば、解空間が大きく絞られることもある
結論として、不可逆演算(情報削除)が最小化されれば可逆演算は可能。例: 2 + 2 + 2 のように複数の演算がすべて記録されていれば可逆だが、最終結果だけを残して履歴を削除した場合(6だけが残る)は不可逆
Mike P FrankをTwitterでずっとフォローしており、reversible computing やAIについての興味深い発言をよく目にする MikePFrank Twitter
この技術が、GPUデータセンター中心のソフトウェアトレンドが再び巡ってきたときに役立つことを願うが、Jevons Paradox(効率が改善すると需要が増え、実質的な省エネに失敗する)と同じで、結局は転換点にはならない可能性が高いと思う
具体的な計画が何なのか、実際に reversible matmul が実演された事例があるのか気になる。その演算でさえ中間過程では簡単に情報削除が避けられないように思え、現実性に疑問がある
記事の見出しを見たとき、そのウェブページ自体が最新のコンピュータでも12秒かかることに皮肉を感じた経験。人はたいてい他人の問題には無関心で、AIなどの新技術が登場すると、環境、個人の雇用、インフラ、著作権侵害、社会システムなどの社会的コストが外部化される傾向がある。効率を得ても結局は自分のためにより多く使うだけで、他人に与える被害は減らさないという苦さがある
LLMを何度使っても、消費電力は電気ケトルでお湯を沸かすより少ないという事実は何度も実証されている