17 ポイント 投稿者 GN⁺ 2026-03-13 | 1件のコメント | WhatsAppで共有
  • Microsoftのbitnet.cppは、1ビット大規模言語モデル(LLM)の公式推論フレームワークであり、CPUとGPUで高速かつ損失のない推論をサポート
  • ARM CPUで1.37〜5.07倍の高速化55.4〜70%の省エネルギー化、x86 CPUで2.37〜6.17倍の高速化71.9〜82.2%の省エネルギー化を達成
  • 並列カーネル実装と埋め込み量子化を追加し、従来比で1.15〜2.1倍の追加性能向上を提供
  • BitNet b1.58モデルを単一CPUで毎秒5〜7トークンの速度で実行可能で、ローカル環境での超大規模モデル運用の可能性を拡大
  • llama.cppT-MACを基盤に開発され、低ビットLLM推論の効率化に向けたオープンソースエコシステムの拡大に貢献

bitnet.cpp 概要

  • bitnet.cppは**1ビットLLM(例: BitNet b1.58)**のための公式推論フレームワークで、CPUとGPU向けに最適化されたカーネルを提供
    • NPUサポートは今後追加予定
  • 初回リリースではCPU推論をサポートし、ARMとx86アーキテクチャの両方で速度とエネルギー効率の改善を実証
    • ARM CPU: 1.37〜5.07倍の高速化、55.4〜70%の省エネルギー化
    • x86 CPU: 2.37〜6.17倍の高速化、71.9〜82.2%の省エネルギー化
  • 100BパラメータのBitNet b1.58モデルを単一CPUで毎秒5〜7トークンの速度で実行可能

最新の最適化

  • 並列カーネル実装タイリング構成埋め込み量子化機能が追加され、従来比で1.15〜2.1倍の追加高速化を達成
  • 多様なハードウェアプラットフォームとワークロードで性能向上を確認
  • 詳細な技術内容はoptimization guide文書で提供

デモと公式モデル

  • Apple M2でBitNet b1.58 3Bモデルを実行するデモを提供
  • 公式モデルとしてBitNet-b1.58-2B-4TがHugging Faceで公開されており、x86およびARM CPUでサポート
  • 対応モデルにはbitnet_b1_58-large(0.7B)bitnet_b1_58-3B(3.3B)Llama3-8B-1.58Falcon3Falcon-Eシリーズを含む

インストールとビルド

  • 要件: Python 3.9以上CMake 3.22以上Clang 18以上
    • WindowsユーザーはVisual Studio 2022のインストールが必要
    • Debian/Ubuntuユーザー向けには自動インストールスクリプトを提供
  • Conda環境の使用を推奨し、setup_env.pyでモデル環境を設定可能
  • Hugging Faceからモデルをダウンロードし、ローカルパスで実行可能

使い方とベンチマーク

  • run_inference.py量子化モデルの推論を実行
    • 主な引数: モデルパス(-m)、プロンプト(-p)、スレッド数(-t)、コンテキストサイズ(-c)、温度(-temp)
  • e2e_benchmark.pyスクリプトでトークン数、プロンプト長、スレッド数を指定して性能測定が可能
  • 公開モデルがない場合は、generate-dummy-bitnet-model.pyダミーモデルを生成してからベンチマークを実行可能

モデル変換とFAQ

  • .safetensorsチェックポイントをgguf形式に変換するスクリプトを提供
  • FAQでは**llama.cppのビルドエラー(std::chrono関連)**の解決方法と、Windowsでのclang環境設定手順を案内
    • Visual Studio開発者コマンドプロンプトまたはPowerShellで環境の初期化が必要

1件のコメント

 
GN⁺ 2026-03-13
Hacker Newsの意見
  • Microsoftは実際には 1.58ビットではなく2ビット を使っている
    この場合、-1、0、1、2 の4つの値を表現できる
    抑制性シナプスが20〜30%を占めることを考えると、この構造は 生物学的な脳の構造 とよく一致していると思う

    • 3つ目の文、つまり「抑制性シナプスが20〜30%を占める」という部分を、もう少し説明してもらえないだろうか
  • 私はしばしば「最小機能LLM」がどんな形になるのか気になる
    つまり、最小限の情報だけを持ち、残りはググって補っても十分に妥当な答えを出せるモデルのことだ
    Encyclopedia Britannica のようなところがデータをLLMに販売し、結果の検証サービスも提供すれば、大きな違いを生むかもしれない
    Wikipediaも良いが、人間の誤りや偏り が多いのが惜しい

    • Andrej Karpathyの短い動画では、このテーマについて話している
      小さなLLMはすでにこうした方向に発展しつつあり、一般知識は乏しくても ツール活用能力(例: ググること) はどんどん向上している
      ただし、自分が知っていることと知らないことを明確に区別するのは、依然として難しい問題だ
    • 私が考えているのは「最小機能LLM」というより、言語だけはよく分かっていて知識はほとんどないLLM
      まるで特定の機器を知らないエンジニアのように、問題解決能力はあるが細部の知識はない
      こうしたモデルが単なるググりやWiki検索で解決できるのかは疑問だが、エッジLLMアーキテクチャ は今後標準になる気がする
    • 推論能力 は結局、学習中に取り込んだ情報量に依存する
      訓練データに含まれている情報ほど検索と解釈がしやすくなる
      したがって、内部記憶よりも 外部メモリ(検索など) 依存型の訓練のほうが実用的かもしれない
    • Wikipediaの誤りや偏りを心配しつつ、同時にWebアクセス可能なLLMのほうが良いと考えるのは、矛盾しているように感じる
      私はむしろ逆だと思う
    • 「妥当な回答」という表現が具体的にどの程度の水準を意味するかによって、結果は変わってきそうだ
  • 元論文(pdf)によると、fp16モデル比で約 4〜5倍のパラメータ が必要になる
    自分でビルドすることはできるが、最初から学習しなければならないので、選択肢は限られている
    それでも、最新の4ビット・8ビット量子化モデルより 推論速度 は速いと予想される

  • 本当の要点は 省エネルギー効果
    CPU推論で70〜82%の削減が可能だという
    もし1ビットモデルが十分に良くなれば、GPUなしでも一般的なハードウェアでLLMを動かせるようになり、アクセシビリティの構図 が変わるだろう

  • bitnet.cpp は1ビットLLM(BitNet b1.58 など)の公式推論フレームワークだというが、
    「1ビットなのか1トリット(trit)なのか」という混乱がある

    • 「1ビットLLM」はマーケティング用語に近く、実際には 3つの状態(-1、0、1) を使うので 1.58ビット に相当する
    • log₂(3)≈1.58 なので、これは2状態(1ビット)ではなく 3状態(1.58ビット) モデルだ
      この2つの概念を混ぜて使うのは紛らわしい
  • このプロジェクトが継続して開発されているのを見てうれしい
    去年 関連文 を読んで可能性を感じたが、新モデルが出てこなくて残念だった

    • ただしこのアプローチは結局 高精度モデルの量子化 にすぎず、推論は速くなっても学習は速くならない
      本当に面白いのは、浮動小数点演算なしで バイナリモデルを直接学習 する方向だ
      関連論文は NeurIPS 2024 にある
  • 「100B BitNetを実行できる」というのは モデルが存在するという意味ではなく、推論フレームワークが可能だという意味

    • 実際にはダミーモデルを使ったようだ
      「1-bit 100b model」で検索しても、ダウンロード可能なモデルは見当たらない
  • モデル出力の品質は GPT-2レベルのぶつぶつした出力 に近く、段落をそのまま繰り返す
    しかも (Jenkins, 2010) のような 偽の引用 を繰り返し再利用する

    • ただし、これは2年前の 3Bパラメータのベースモデル で、100Bトークンだけで学習された研究用バージョンだ
  • タイトルが誤解を招く
    実際には学習済みの100Bモデルではなく、それを 処理できる推論フレームワーク
    私は M2 Max 96GB で llama.cpp + LiteLLM により 70B量子化モデルを動かしているが、メモリ帯域幅 がボトルネックになっている
    1.58ビットのアプローチは 行列積を加算に置き換える構造 なので、CPU上では根本的に異なる計算パターンを持つ
    もしCPUの単一コアで100B級モデルを毎秒5〜7トークンで動かせるなら、オンデバイス推論の転換点 になるだろう
    フレームワークは整ったので、あとは 誰かが実際にモデルを学習 しなければならない

    • Microsoftが2年間自分たちでモデルを学習していないなら、彼らの主張をそのまま信じるのは難しいと思う
    • 「新モデル」とは言うものの、Hugging Face に上がっている重みは11か月前のもので、2Bパラメータ級だ
      宣伝に比べて実質的な成果が乏しい
    • 2ビット演算 はハードウェア実装が非常に安価なので、専用チップを作ればGPUなしでも強力な推論が可能になるだろう
      学習には依然としてGPUが必要だろうが、推論向けハードウェア ははるかに単純化できるかもしれない
    • 毎秒5〜7トークンという速度は、実際の読書速度より遅い
      私は7トークン/秒で出力するモデルを使ったことがあるが、歩くのが遅い人の後ろをついていくようなもどかしさ があった
      ローカル環境では最低でも毎秒10トークン以上を目標にすべきだ
    • 「CPUでの計算プロファイルが根本的に異なる」という主張には疑問がある
      現代CPUの FMA(Fused Multiply-Add) 命令は、単純加算とほぼ同じスループットを持っている
  • 今後 NPU搭載PC が本格的に成果を出すのはいつなのか気になる
    AMDはNPU/iGPUハイブリッド推論カーネルで良い結果を出している
    こうした大型モデルがNPUで動けば、CPU比で 電力効率 ははるかに良くなるだろう

    • 私は最近 OpenAI の Whisper をCPUで動かした後、Intel NPU 最適化版を試したが、6倍速くてずっと静かだった
      それ以来、NPUのファンになった。もちろんRTX 5090級ではないが、CPUよりはるかに効率的だ
    • Rockchip RK3588 SBC のNPUでも、すでに小さなLLMを動かせる
      ソフトウェアエコシステムは不安定だが、CPU/GPU使用率ほぼ0 で動作する
    • ただ、NPUが本当にそこまで強力なのかは疑問だ
      私はそれらが 低消費電力重視の設計 だと理解していた