BitNet - 1ビットLLMのための推論フレームワーク

(github.com/microsoft)

17 ポイント投稿者 GN⁺ 2026-03-13 | 1件のコメント | WhatsAppで共有

Microsoftのbitnet.cppは、1ビット大規模言語モデル（LLM）の公式推論フレームワークであり、CPUとGPUで高速かつ損失のない推論をサポート
ARM CPUで1.37〜5.07倍の高速化と55.4〜70%の省エネルギー化、x86 CPUで2.37〜6.17倍の高速化と71.9〜82.2%の省エネルギー化を達成
並列カーネル実装と埋め込み量子化を追加し、従来比で1.15〜2.1倍の追加性能向上を提供
BitNet b1.58モデルを単一CPUで毎秒5〜7トークンの速度で実行可能で、ローカル環境での超大規模モデル運用の可能性を拡大
llama.cppとT-MACを基盤に開発され、低ビットLLM推論の効率化に向けたオープンソースエコシステムの拡大に貢献

bitnet.cpp 概要

bitnet.cppは**1ビットLLM（例: BitNet b1.58）**のための公式推論フレームワークで、CPUとGPU向けに最適化されたカーネルを提供
- NPUサポートは今後追加予定
初回リリースではCPU推論をサポートし、ARMとx86アーキテクチャの両方で速度とエネルギー効率の改善を実証
- ARM CPU: 1.37〜5.07倍の高速化、55.4〜70%の省エネルギー化
- x86 CPU: 2.37〜6.17倍の高速化、71.9〜82.2%の省エネルギー化
100BパラメータのBitNet b1.58モデルを単一CPUで毎秒5〜7トークンの速度で実行可能

デモと公式モデル

Apple M2でBitNet b1.58 3Bモデルを実行するデモを提供
公式モデルとしてBitNet-b1.58-2B-4TがHugging Faceで公開されており、x86およびARM CPUでサポート
対応モデルにはbitnet_b1_58-large(0.7B)、bitnet_b1_58-3B(3.3B)、Llama3-8B-1.58、Falcon3、Falcon-Eシリーズを含む

インストールとビルド

要件: Python 3.9以上、CMake 3.22以上、Clang 18以上
- WindowsユーザーはVisual Studio 2022のインストールが必要
- Debian/Ubuntuユーザー向けには自動インストールスクリプトを提供
Conda環境の使用を推奨し、setup_env.pyでモデル環境を設定可能
Hugging Faceからモデルをダウンロードし、ローカルパスで実行可能

使い方とベンチマーク

run_inference.pyで量子化モデルの推論を実行
- 主な引数: モデルパス(-m)、プロンプト(-p)、スレッド数(-t)、コンテキストサイズ(-c)、温度(-temp)
e2e_benchmark.pyスクリプトでトークン数、プロンプト長、スレッド数を指定して性能測定が可能
公開モデルがない場合は、generate-dummy-bitnet-model.pyでダミーモデルを生成してからベンチマークを実行可能

モデル変換とFAQ

.safetensorsチェックポイントをgguf形式に変換するスクリプトを提供
FAQでは**llama.cppのビルドエラー（std::chrono関連）**の解決方法と、Windowsでのclang環境設定手順を案内
- Visual Studio開発者コマンドプロンプトまたはPowerShellで環境の初期化が必要

1件のコメント

GN⁺ 2026-03-13

Hacker Newsの意見

Microsoftは実際には 1.58ビットではなく2ビット を使っている
この場合、-1、0、1、2 の4つの値を表現できる
抑制性シナプスが20〜30%を占めることを考えると、この構造は 生物学的な脳の構造 とよく一致していると思う
- 3つ目の文、つまり「抑制性シナプスが20〜30%を占める」という部分を、もう少し説明してもらえないだろうか
私はしばしば「最小機能LLM」がどんな形になるのか気になる
つまり、最小限の情報だけを持ち、残りはググって補っても十分に妥当な答えを出せるモデルのことだ
Encyclopedia Britannica のようなところがデータをLLMに販売し、結果の検証サービスも提供すれば、大きな違いを生むかもしれない
Wikipediaも良いが、人間の誤りや偏り が多いのが惜しい
- Andrej Karpathyの短い動画では、このテーマについて話している
  小さなLLMはすでにこうした方向に発展しつつあり、一般知識は乏しくても ツール活用能力（例: ググること） はどんどん向上している
  ただし、自分が知っていることと知らないことを明確に区別するのは、依然として難しい問題だ
- 私が考えているのは「最小機能LLM」というより、言語だけはよく分かっていて知識はほとんどないLLM だ
  まるで特定の機器を知らないエンジニアのように、問題解決能力はあるが細部の知識はない
  こうしたモデルが単なるググりやWiki検索で解決できるのかは疑問だが、エッジLLMアーキテクチャ は今後標準になる気がする
- 推論能力 は結局、学習中に取り込んだ情報量に依存する
  訓練データに含まれている情報ほど検索と解釈がしやすくなる
  したがって、内部記憶よりも 外部メモリ（検索など） 依存型の訓練のほうが実用的かもしれない
- Wikipediaの誤りや偏りを心配しつつ、同時にWebアクセス可能なLLMのほうが良いと考えるのは、矛盾しているように感じる
  私はむしろ逆だと思う
- 「妥当な回答」という表現が具体的にどの程度の水準を意味するかによって、結果は変わってきそうだ
元論文(pdf)によると、fp16モデル比で約 4〜5倍のパラメータ が必要になる
自分でビルドすることはできるが、最初から学習しなければならないので、選択肢は限られている
それでも、最新の4ビット・8ビット量子化モデルより 推論速度 は速いと予想される
本当の要点は 省エネルギー効果 だ
CPU推論で70〜82%の削減が可能だという
もし1ビットモデルが十分に良くなれば、GPUなしでも一般的なハードウェアでLLMを動かせるようになり、アクセシビリティの構図 が変わるだろう
bitnet.cpp は1ビットLLM（BitNet b1.58 など）の公式推論フレームワークだというが、
「1ビットなのか1トリット(trit)なのか」という混乱がある
- 「1ビットLLM」はマーケティング用語に近く、実際には 3つの状態（-1、0、1） を使うので 1.58ビット に相当する
- log₂(3)≈1.58 なので、これは2状態（1ビット）ではなく 3状態（1.58ビット） モデルだ
  この2つの概念を混ぜて使うのは紛らわしい
このプロジェクトが継続して開発されているのを見てうれしい
去年関連文を読んで可能性を感じたが、新モデルが出てこなくて残念だった
- ただしこのアプローチは結局 高精度モデルの量子化 にすぎず、推論は速くなっても学習は速くならない
  本当に面白いのは、浮動小数点演算なしで バイナリモデルを直接学習 する方向だ
  関連論文は NeurIPS 2024 にある
「100B BitNetを実行できる」というのは モデルが存在するという意味ではなく、推論フレームワークが可能だという意味 だ
- 実際にはダミーモデルを使ったようだ
  「1-bit 100b model」で検索しても、ダウンロード可能なモデルは見当たらない
モデル出力の品質は GPT-2レベルのぶつぶつした出力 に近く、段落をそのまま繰り返す
しかも (Jenkins, 2010) のような 偽の引用 を繰り返し再利用する
- ただし、これは2年前の 3Bパラメータのベースモデル で、100Bトークンだけで学習された研究用バージョンだ
タイトルが誤解を招く
実際には学習済みの100Bモデルではなく、それを 処理できる推論フレームワーク だ
私は M2 Max 96GB で llama.cpp + LiteLLM により 70B量子化モデルを動かしているが、メモリ帯域幅 がボトルネックになっている
1.58ビットのアプローチは 行列積を加算に置き換える構造 なので、CPU上では根本的に異なる計算パターンを持つ
もしCPUの単一コアで100B級モデルを毎秒5〜7トークンで動かせるなら、オンデバイス推論の転換点 になるだろう
フレームワークは整ったので、あとは 誰かが実際にモデルを学習 しなければならない
- Microsoftが2年間自分たちでモデルを学習していないなら、彼らの主張をそのまま信じるのは難しいと思う
- 「新モデル」とは言うものの、Hugging Face に上がっている重みは11か月前のもので、2Bパラメータ級だ
  宣伝に比べて実質的な成果が乏しい
- 2ビット演算 はハードウェア実装が非常に安価なので、専用チップを作ればGPUなしでも強力な推論が可能になるだろう
  学習には依然としてGPUが必要だろうが、推論向けハードウェア ははるかに単純化できるかもしれない
- 毎秒5〜7トークンという速度は、実際の読書速度より遅い
  私は7トークン/秒で出力するモデルを使ったことがあるが、歩くのが遅い人の後ろをついていくようなもどかしさ があった
  ローカル環境では最低でも毎秒10トークン以上を目標にすべきだ
- 「CPUでの計算プロファイルが根本的に異なる」という主張には疑問がある
  現代CPUの FMA(Fused Multiply-Add) 命令は、単純加算とほぼ同じスループットを持っている
今後 NPU搭載PC が本格的に成果を出すのはいつなのか気になる
AMDはNPU/iGPUハイブリッド推論カーネルで良い結果を出している
こうした大型モデルがNPUで動けば、CPU比で 電力効率 ははるかに良くなるだろう
- 私は最近 OpenAI の Whisper をCPUで動かした後、Intel NPU 最適化版を試したが、6倍速くてずっと静かだった
  それ以来、NPUのファンになった。もちろんRTX 5090級ではないが、CPUよりはるかに効率的だ
- Rockchip RK3588 SBC のNPUでも、すでに小さなLLMを動かせる
  ソフトウェアエコシステムは不安定だが、CPU/GPU使用率ほぼ0 で動作する
- ただ、NPUが本当にそこまで強力なのかは疑問だ
  私はそれらが 低消費電力重視の設計 だと理解していた

BitNet - 1ビットLLMのための推論フレームワーク

bitnet.cpp 概要

最新の最適化

デモと公式モデル

インストールとビルド

使い方とベンチマーク

モデル変換とFAQ

関連記事

1件のコメント

Hacker Newsの意見