1-bit Bonsai - 商用で実用可能な初の1ビットLLM
(prismml.com)- Caltechの研究を出発点とするAIスタートアップ PrismML が 1-bit Bonsai 8B モデルを公開し、従来の16ビット同等モデルと比べて約14分の1の1.15GBというサイズで、スマートフォン・エッジデバイスでの実用的なAI推論を実現
- 埋め込み、アテンション、MLP、LMヘッドを例外なく1ビットで構成した 真のエンドツーエンド1ビット設計 により、既存の低ビットモデルが抱えていた命令実行・多段推論・ツール使用における品質低下の問題を克服
- インテリジェンス密度(Intelligence Density) 指標で 1.06/GB を達成し、同クラスで最も近い競合モデル(Qwen3 8B、0.10/GB)に対して約10.6倍優位
- M4 Pro Macで131 tok/s、RTX 4090で368 tok/s、iPhone 17 Pro Maxで約44 tok/sで動作し、エネルギー効率は16ビットモデル比で約4〜5倍 優秀
- 1ビット専用ハードウェアが設計されれば、さらに 1桁台倍率の性能・効率向上 の可能性が開かれ、オンデバイスAI・ロボティクス・セキュリティエンタープライズなど新たな展開カテゴリを拡大
PrismMLと1-bit Bonsai登場の背景
- 過去10年間のAIの進歩は、モデルをより大きくする方向(より多くのパラメータ、GPU、電力、メモリ、コスト)で進んできた
- その結果、最も優れた知能が 大規模クラスタと専用インフラ の中に閉じ込められるという構造的制約が生まれた
- 実際にAIが必要とされる場所はデータセンターに限られず、スマートフォン・ノートPC・車両・ロボット・セキュリティエンタープライズ・エッジデバイスなど多様
- PrismML は Caltech の研究チームを母体として、Khosla Ventures、Cerberus、Google の支援を受けて設立
- 知能密度(Intelligence Density) — モデルサイズ(GB)あたりに提供できる知能の量 — を中核的な最適化指標として設定
真の1ビットモデル設計
- 1-bit Bonsai 8B は埋め込み、アテンション層、MLP層、LMヘッド全体を1ビットで実装し、高精度の逃げ道(escape hatch)なしで 82億パラメータ全体にわたり完全な1ビット構造を維持
- 従来の低ビットモデルは、命令実行、多段推論、ツール使用の信頼性において大きな性能損失があり、実製品の基盤として使いにくかった
- Bonsai は、1ビットモデルでも限定的な妥協案ではなく、プロダクション水準の完全なシステム になり得ることを証明
インテリジェンス密度(Intelligence Density)の測定
- インテリジェンス密度は、ベンチマーク全体における 平均誤り率の負の対数値をモデルサイズで割った数値 として定義
- この指標は単純なベンチマーク平均よりも現実的な知能水準を反映し、すでに高い精度域での追加改善により高い価値を与える
- 1-bit Bonsai 8B: 1.06/GB、Qwen3 8B: 0.10/GB — 単に上回るというレベルではなく、次元の異なる結果
- 生のベンチマーク平均でも 1-bit Bonsai 8B は主要な8B級モデルと競争力ある性能を維持しつつ、メモリフットプリントは1.15GB で同クラス比約12〜14分の1と小さい
サイズと速度
- 1.15GB のサイズで iPhone 17 Pro で動作可能 — 従来の16ビット8Bモデルはどの iPhone にも搭載不可
- デバイス別の推論速度:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: 約 44 tok/s
- 50件のチケット要約・割り当てタスクをシミュレーションしたところ、1-bit Bonsai 8B は50件すべてを処理 し、同条件の16ビット8Bモデルは6件のみ処理
- 長時間エージェントワークロードでは、より高いスループットと低いメモリ使用量が、エージェントが実際に処理できる仕事量そのものを拡大
エネルギー効率
- 1-bit Bonsai 8B は16ビットフル精度モデルに比べて 約4〜5倍優れたエネルギー効率 を達成
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
- AI が基盤インフラとして定着するには、エネルギー効率の飛躍的改善が不可欠
1ビット専用ハードウェアの潜在力
- 現在の性能向上は主に1ビットモデルの 縮小されたメモリフットプリント に由来しており、推論時に1ビット重み構造を完全活用することはまだ達成されていない
- MLPのような線形層では、1ビット重みは乗算演算を加算に置き換えることを可能にする
- 1ビット推論専用ハードウェア が設計されれば、性能とエネルギー効率をさらに1桁台倍率だけ向上させられる可能性がある
Bonsai 4Bおよび1.7Bモデル
- 1-bit Bonsai 4B と 1-bit Bonsai 1.7B の2つの小型モデルも同時に公開
- 主要な instruct モデル20種(1.2GB〜16.4GB範囲)と比較したインテリジェンス対サイズの散布図では、Bonsaiファミリー全体が既存のParetoフロンティアを大きく左へ移動 させた
- 既存のParetoフロンティアは Qwen3 0.6B、1.7B、4B、8B および Ministral3 3B で構成されていたが、Bonsaiファミリーが新たなフロンティアを定義
集約された知能が可能にすること
- モデルがオンデバイスで動作できるほど小さく、高速で、高効率になると、AI製品の設計空間は即座に変わる:
- 応答性向上: オンデバイス推論によりネットワーク遅延なく動作
- プライバシー強化: 機密データがデバイス外に出ない
- 信頼性向上: 継続的なクラウド接続への依存を低減
- 経済性の確保: サーバー側展開がコスト面で不可能だった環境でもAIを活用可能
- 新たに開かれるカテゴリ: 常時オンデバイスエージェント、リアルタイムロボティクス、セキュリティエンタープライズ向けコパイロット、オフライン知能、帯域幅・電力・規制制約環境向けのAIネイティブ製品
プラットフォーム対応と公開方式
- 1-bit Bonsai 8B は Appleデバイス(Mac, iPhone, iPad)で MLX 経由、NVIDIA GPUで llama.cpp CUDA 経由のネイティブ実行をサポート
- モデル重みは現在 Apache 2.0 ライセンス で公開
- 学習・評価・ベンチマークプロセスの技術的詳細は公式 whitepaper で提供
2件のコメント
良い情報です。
Hacker Newsの反応
1.125ビットという表現(1ビット重み + 128個グループごとに共有される16ビットスケール)は技術的に誠実な数値だと強調している
「商業的に実用可能」というのが推論コスト基準なのか、あるいはファインチューニング前提で可能なのかを区別する必要がある
MicrosoftのBitNet論文のように、最初から1ビットを目標に学習されたモデルであれば、単なる量子化モデルとはまったく別物だ
特に汎用ハードウェア上での推論効率はINT4量子化よりはるかに魅力的に感じられる
ただしベンチマークは量子化された大型モデルと比較されており、実際の主張の本質がやや埋もれている
多段階推論が必要な作業でも性能が維持されるのか見てみたい
1ビット + FP16スケール(128ビットごとに1個)という構造がこれほどよく機能するのは興味深い
CursorでWebページのテストを生成してみたが、ツール使用能力はかなり印象的だった
πのモンテカルロシミュレーションでは論理は正しかったが、インターフェース生成には失敗し、いくらか手動修正が必要だった
Pelicanの描画結果は非常に抽象的だった
公式デモがないため、ローカルのllama.cppインスタンスを公開している
RスクリプトやLaTeX数式生成などさまざまな依頼を試し、特にオイラーの公式は完璧に生成された
小さな1ビットモデルにもかかわらず知識密度が高く、反応も速い
「思考ステップ」を追加したり検索ベースの補強を入れたりすれば、ずっと実用的になりそうだ
自作のSQLデバッグベンチマークを回してみたところ、かなり印象的だった
25問中8問通過、失敗0、エラー17で、Qwen3.5-4BとNanbeige4.1-3Bの中間くらいの水準だ
全テストが200秒で終わり、速度面ではGranite 7B 4bitよりはるかに効率的だった
結果はSQLベンチマークサイトで確認できる
個人的にはPomodoroアプリを作るテストをしたが、完成度は低いものの特定の領域ではかなり使えた
文章力も意外によく、em dashの使用が少ない点も興味深い
HTML生成は弱いが、1ビットモデルとNgram-embeddingを組み合わせれば新しい可能性が多そうだ
自作のプロトタイプコードも共有している
最新更新されたLocally AIアプリで、iPhoneでも実行できる
1.2GBというサイズの割には驚くほど高性能だ
ペリカンのSVG結果はコメントはよかったが、絵は今ひとつだった
「台湾標準時の9:30amは米国太平洋時間で何時か?」と聞いたが、どのモデルも正答できなかった
8GiBモデルをRTX 3090で5時間公開運用した
サーバーリンクと実行コマンドを共有している
5並列リクエスト、約13Kトークン制限、VRAM使用量は4GiB
190t/sで出力されるなど、非常に高速だった
会話例では、「洗車場まで歩くべきか運転すべきか」と尋ねると創造的な答えが返ってきた
GPUがなかったのでCPUで動かしたが、古いノートPCでも0.6t/sから、AVX2追加後は12t/sまで向上した
なかなか悪くない性能だと感じた
git checkout prismの手順を飛ばしていたのが原因で、修正後は正常に動作した大規模モデルの未来はfloatよりビット単位に向かうと思う
float値の大半は狭い範囲に集中していて非効率で、最終的にはビット演算で実装される
ただし問題は、GPUと理論的基盤が実数演算に合わせて作られていることだ
float形式が維持されているのは、単にGPUスタックとの互換性が高いからでもある
「Boolean variation」という概念を導入し、微分を二進形式で定義して直接逆伝播を行っている
スパイキングニューラルネットワークとの類似が興味深い
スパイクの有無で1ビット通信を行い、アナログの膜電位を使う
5,000個のIzhikevichニューロンで四足歩行制御を行ったところ、PPOより効率的だった
1ビット効率はLLMにとどまらない概念だ
「-log error / model size」の比率が1に近いなら、エラー率が40%程度という意味なのか気になる
数学的には error/model size = 1/e になるという計算も付け加えている
Bonsaiは8Bモデルを1.15GBで提供しているが、27Bや35Bモデルはどれくらいのサイズになるのか気になる
スケーリングが維持されるなら、100Bモデルでも64GB RAMに収まりそうだ
おそらくフル精度モデルと同じくらい高価なはずで、そうでなければすでに言及されていたはずだ