1-bit Bonsai - 商用で実用可能な初の1ビットLLM

(prismml.com)

14 ポイント投稿者 GN⁺ 28 일 전 | 2件のコメント | WhatsAppで共有

Caltechの研究を出発点とするAIスタートアップ PrismML が 1-bit Bonsai 8B モデルを公開し、従来の16ビット同等モデルと比べて約14分の1の1.15GBというサイズで、スマートフォン・エッジデバイスでの実用的なAI推論を実現
埋め込み、アテンション、MLP、LMヘッドを例外なく1ビットで構成した 真のエンドツーエンド1ビット設計 により、既存の低ビットモデルが抱えていた命令実行・多段推論・ツール使用における品質低下の問題を克服
インテリジェンス密度(Intelligence Density) 指標で 1.06/GB を達成し、同クラスで最も近い競合モデル（Qwen3 8B、0.10/GB）に対して約10.6倍優位
M4 Pro Macで131 tok/s、RTX 4090で368 tok/s、iPhone 17 Pro Maxで約44 tok/sで動作し、エネルギー効率は16ビットモデル比で約4〜5倍 優秀
1ビット専用ハードウェアが設計されれば、さらに 1桁台倍率の性能・効率向上 の可能性が開かれ、オンデバイスAI・ロボティクス・セキュリティエンタープライズなど新たな展開カテゴリを拡大

PrismMLと1-bit Bonsai登場の背景

過去10年間のAIの進歩は、モデルをより大きくする方向（より多くのパラメータ、GPU、電力、メモリ、コスト）で進んできた
その結果、最も優れた知能が 大規模クラスタと専用インフラ の中に閉じ込められるという構造的制約が生まれた
実際にAIが必要とされる場所はデータセンターに限られず、スマートフォン・ノートPC・車両・ロボット・セキュリティエンタープライズ・エッジデバイスなど多様
PrismML は Caltech の研究チームを母体として、Khosla Ventures、Cerberus、Google の支援を受けて設立
知能密度(Intelligence Density) — モデルサイズ(GB)あたりに提供できる知能の量 — を中核的な最適化指標として設定

真の1ビットモデル設計

1-bit Bonsai 8B は埋め込み、アテンション層、MLP層、LMヘッド全体を1ビットで実装し、高精度の逃げ道(escape hatch)なしで 82億パラメータ全体にわたり完全な1ビット構造を維持
従来の低ビットモデルは、命令実行、多段推論、ツール使用の信頼性において大きな性能損失があり、実製品の基盤として使いにくかった
Bonsai は、1ビットモデルでも限定的な妥協案ではなく、プロダクション水準の完全なシステム になり得ることを証明

インテリジェンス密度(Intelligence Density)の測定

インテリジェンス密度は、ベンチマーク全体における 平均誤り率の負の対数値をモデルサイズで割った数値 として定義
この指標は単純なベンチマーク平均よりも現実的な知能水準を反映し、すでに高い精度域での追加改善により高い価値を与える
1-bit Bonsai 8B: 1.06/GB、Qwen3 8B: 0.10/GB — 単に上回るというレベルではなく、次元の異なる結果
生のベンチマーク平均でも 1-bit Bonsai 8B は主要な8B級モデルと競争力ある性能を維持しつつ、メモリフットプリントは1.15GB で同クラス比約12〜14分の1と小さい

サイズと速度

1.15GB のサイズで iPhone 17 Pro で動作可能 — 従来の16ビット8Bモデルはどの iPhone にも搭載不可
デバイス別の推論速度:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: 約 44 tok/s
50件のチケット要約・割り当てタスクをシミュレーションしたところ、1-bit Bonsai 8B は50件すべてを処理 し、同条件の16ビット8Bモデルは6件のみ処理
長時間エージェントワークロードでは、より高いスループットと低いメモリ使用量が、エージェントが実際に処理できる仕事量そのものを拡大

エネルギー効率

1-bit Bonsai 8B は16ビットフル精度モデルに比べて 約4〜5倍優れたエネルギー効率 を達成
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
AI が基盤インフラとして定着するには、エネルギー効率の飛躍的改善が不可欠

1ビット専用ハードウェアの潜在力

現在の性能向上は主に1ビットモデルの 縮小されたメモリフットプリント に由来しており、推論時に1ビット重み構造を完全活用することはまだ達成されていない
MLPのような線形層では、1ビット重みは乗算演算を加算に置き換えることを可能にする
1ビット推論専用ハードウェア が設計されれば、性能とエネルギー効率をさらに1桁台倍率だけ向上させられる可能性がある

Bonsai 4Bおよび1.7Bモデル

1-bit Bonsai 4B と 1-bit Bonsai 1.7B の2つの小型モデルも同時に公開
主要な instruct モデル20種（1.2GB〜16.4GB範囲）と比較したインテリジェンス対サイズの散布図では、Bonsaiファミリー全体が既存のParetoフロンティアを大きく左へ移動 させた
既存のParetoフロンティアは Qwen3 0.6B、1.7B、4B、8B および Ministral3 3B で構成されていたが、Bonsaiファミリーが新たなフロンティアを定義

集約された知能が可能にすること

モデルがオンデバイスで動作できるほど小さく、高速で、高効率になると、AI製品の設計空間は即座に変わる:
- 応答性向上: オンデバイス推論によりネットワーク遅延なく動作
- プライバシー強化: 機密データがデバイス外に出ない
- 信頼性向上: 継続的なクラウド接続への依存を低減
- 経済性の確保: サーバー側展開がコスト面で不可能だった環境でもAIを活用可能
新たに開かれるカテゴリ: 常時オンデバイスエージェント、リアルタイムロボティクス、セキュリティエンタープライズ向けコパイロット、オフライン知能、帯域幅・電力・規制制約環境向けのAIネイティブ製品

プラットフォーム対応と公開方式

1-bit Bonsai 8B は Appleデバイス(Mac, iPhone, iPad)で MLX 経由、NVIDIA GPUで llama.cpp CUDA 経由のネイティブ実行をサポート
モデル重みは現在 Apache 2.0 ライセンス で公開
学習・評価・ベンチマークプロセスの技術的詳細は公式 whitepaper で提供

2件のコメント

runableapp 28 일 전

良い情報です。

GN⁺ 28 일 전

Hacker Newsの反応

1.125ビットという表現（1ビット重み + 128個グループごとに共有される16ビットスケール）は技術的に誠実な数値だと強調している
「商業的に実用可能」というのが推論コスト基準なのか、あるいはファインチューニング前提で可能なのかを区別する必要がある
MicrosoftのBitNet論文のように、最初から1ビットを目標に学習されたモデルであれば、単なる量子化モデルとはまったく別物だ
特に汎用ハードウェア上での推論効率はINT4量子化よりはるかに魅力的に感じられる
ただしベンチマークは量子化された大型モデルと比較されており、実際の主張の本質がやや埋もれている
多段階推論が必要な作業でも性能が維持されるのか見てみたい
1ビット + FP16スケール（128ビットごとに1個）という構造がこれほどよく機能するのは興味深い
CursorでWebページのテストを生成してみたが、ツール使用能力はかなり印象的だった
πのモンテカルロシミュレーションでは論理は正しかったが、インターフェース生成には失敗し、いくらか手動修正が必要だった
Pelicanの描画結果は非常に抽象的だった
公式デモがないため、ローカルのllama.cppインスタンスを公開している
- リンクのおかげで直接試してみたが、応答速度が非常に速い
  RスクリプトやLaTeX数式生成などさまざまな依頼を試し、特にオイラーの公式は完璧に生成された
  小さな1ビットモデルにもかかわらず知識密度が高く、反応も速い
- 美術史専攻として、「自転車に乗ったペリカン」というアイデアには全面的に賛成だ
- ngrokリンクがアクセス殺到で塞がれたため、Google Colab版を共有している
- Prismのllama.cppフォークが必要なのか気になる
- 初期のChatGPTのように、たいていは合っているが時々でたらめを言う感じだ
  「思考ステップ」を追加したり検索ベースの補強を入れたりすれば、ずっと実用的になりそうだ
自作のSQLデバッグベンチマークを回してみたところ、かなり印象的だった
25問中8問通過、失敗0、エラー17で、Qwen3.5-4BとNanbeige4.1-3Bの中間くらいの水準だ
全テストが200秒で終わり、速度面ではGranite 7B 4bitよりはるかに効率的だった
結果はSQLベンチマークサイトで確認できる
- 自分も@freakynitのrunpodを使った
  個人的にはPomodoroアプリを作るテストをしたが、完成度は低いものの特定の領域ではかなり使えた
  文章力も意外によく、em dashの使用が少ない点も興味深い
  HTML生成は弱いが、1ビットモデルとNgram-embeddingを組み合わせれば新しい可能性が多そうだ
  自作のプロトタイプコードも共有している
最新更新されたLocally AIアプリで、iPhoneでも実行できる
1.2GBというサイズの割には驚くほど高性能だ
ペリカンのSVG結果はコメントはよかったが、絵は今ひとつだった
- 小型モデルはタイムゾーン変換に非常に弱いことが分かった
  「台湾標準時の9:30amは米国太平洋時間で何時か？」と聞いたが、どのモデルも正答できなかった
- ペリカンに自転車を頼んだのか、それともモデルが創造的に付け加えたのか気になる
8GiBモデルをRTX 3090で5時間公開運用した
サーバーリンクと実行コマンドを共有している
5並列リクエスト、約13Kトークン制限、VRAM使用量は4GiB
190t/sで出力されるなど、非常に高速だった
- KVキャッシュは精度を落とさず維持したほうがよいと助言している
- このモデルと会話するのは本当に楽しい
  会話例では、「洗車場まで歩くべきか運転すべきか」と尋ねると創造的な答えが返ってきた
- スポットインスタンス終了でサーバーが停止したと追記している
- 速度に感嘆している
- Pastebinの結果も共有し、弱いモデルではこうした結果は出せないと述べている
GPUがなかったのでCPUで動かしたが、古いノートPCでも0.6t/sから、AVX2追加後は12t/sまで向上した
なかなか悪くない性能だと感じた
- AVX2ビルドでも遅い、あるいは意味のない出力しか出なかったというフィードバックもあった
  git checkout prism の手順を飛ばしていたのが原因で、修正後は正常に動作した
- 「not shabby」という表現は控えめすぎると冗談を言っている
大規模モデルの未来はfloatよりビット単位に向かうと思う
float値の大半は狭い範囲に集中していて非効率で、最終的にはビット演算で実装される
ただし問題は、GPUと理論的基盤が実数演算に合わせて作られていることだ
- 低ビット幅での推論は容易だが、学習は難しく不安定だ
  float形式が維持されているのは、単にGPUスタックとの互換性が高いからでもある
- この論文では学習までバイナリベースで実施している
  「Boolean variation」という概念を導入し、微分を二進形式で定義して直接逆伝播を行っている
スパイキングニューラルネットワークとの類似が興味深い
スパイクの有無で1ビット通信を行い、アナログの膜電位を使う
5,000個のIzhikevichニューロンで四足歩行制御を行ったところ、PPOより効率的だった
1ビット効率はLLMにとどまらない概念だ
「-log error / model size」の比率が1に近いなら、エラー率が40%程度という意味なのか気になる
数学的には error/model size = 1/e になるという計算も付け加えている
Bonsaiは8Bモデルを1.15GBで提供しているが、27Bや35Bモデルはどれくらいのサイズになるのか気になる
スケーリングが維持されるなら、100Bモデルでも64GB RAMに収まりそうだ
- ただし問題は学習コストだ
  おそらくフル精度モデルと同じくらい高価なはずで、そうでなければすでに言及されていたはずだ

1-bit Bonsai - 商用で実用可能な初の1ビットLLM

PrismMLと1-bit Bonsai登場の背景

真の1ビットモデル設計

インテリジェンス密度(Intelligence Density)の測定

サイズと速度

エネルギー効率

1ビット専用ハードウェアの潜在力

Bonsai 4Bおよび1.7Bモデル

集約された知能が可能にすること

プラットフォーム対応と公開方式

関連記事

2件のコメント

Hacker Newsの反応