14 ポイント 投稿者 GN⁺ 28 일 전 | 2件のコメント | WhatsAppで共有
  • Caltechの研究を出発点とするAIスタートアップ PrismML が 1-bit Bonsai 8B モデルを公開し、従来の16ビット同等モデルと比べて約14分の1の1.15GBというサイズで、スマートフォン・エッジデバイスでの実用的なAI推論を実現
  • 埋め込み、アテンション、MLP、LMヘッドを例外なく1ビットで構成した 真のエンドツーエンド1ビット設計 により、既存の低ビットモデルが抱えていた命令実行・多段推論・ツール使用における品質低下の問題を克服
  • インテリジェンス密度(Intelligence Density) 指標で 1.06/GB を達成し、同クラスで最も近い競合モデル(Qwen3 8B、0.10/GB)に対して約10.6倍優位
  • M4 Pro Macで131 tok/s、RTX 4090で368 tok/s、iPhone 17 Pro Maxで約44 tok/sで動作し、エネルギー効率は16ビットモデル比で約4〜5倍 優秀
  • 1ビット専用ハードウェアが設計されれば、さらに 1桁台倍率の性能・効率向上 の可能性が開かれ、オンデバイスAI・ロボティクス・セキュリティエンタープライズなど新たな展開カテゴリを拡大

PrismMLと1-bit Bonsai登場の背景

  • 過去10年間のAIの進歩は、モデルをより大きくする方向(より多くのパラメータ、GPU、電力、メモリ、コスト)で進んできた
  • その結果、最も優れた知能が 大規模クラスタと専用インフラ の中に閉じ込められるという構造的制約が生まれた
  • 実際にAIが必要とされる場所はデータセンターに限られず、スマートフォン・ノートPC・車両・ロボット・セキュリティエンタープライズ・エッジデバイスなど多様
  • PrismML は Caltech の研究チームを母体として、Khosla Ventures、Cerberus、Google の支援を受けて設立
  • 知能密度(Intelligence Density) — モデルサイズ(GB)あたりに提供できる知能の量 — を中核的な最適化指標として設定

真の1ビットモデル設計

  • 1-bit Bonsai 8B は埋め込み、アテンション層、MLP層、LMヘッド全体を1ビットで実装し、高精度の逃げ道(escape hatch)なしで 82億パラメータ全体にわたり完全な1ビット構造を維持
  • 従来の低ビットモデルは、命令実行、多段推論、ツール使用の信頼性において大きな性能損失があり、実製品の基盤として使いにくかった
  • Bonsai は、1ビットモデルでも限定的な妥協案ではなく、プロダクション水準の完全なシステム になり得ることを証明

インテリジェンス密度(Intelligence Density)の測定

  • インテリジェンス密度は、ベンチマーク全体における 平均誤り率の負の対数値をモデルサイズで割った数値 として定義
  • この指標は単純なベンチマーク平均よりも現実的な知能水準を反映し、すでに高い精度域での追加改善により高い価値を与える
  • 1-bit Bonsai 8B: 1.06/GB、Qwen3 8B: 0.10/GB — 単に上回るというレベルではなく、次元の異なる結果
  • 生のベンチマーク平均でも 1-bit Bonsai 8B は主要な8B級モデルと競争力ある性能を維持しつつ、メモリフットプリントは1.15GB で同クラス比約12〜14分の1と小さい

サイズと速度

  • 1.15GB のサイズで iPhone 17 Pro で動作可能 — 従来の16ビット8Bモデルはどの iPhone にも搭載不可
  • デバイス別の推論速度:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: 約 44 tok/s
  • 50件のチケット要約・割り当てタスクをシミュレーションしたところ、1-bit Bonsai 8B は50件すべてを処理 し、同条件の16ビット8Bモデルは6件のみ処理
  • 長時間エージェントワークロードでは、より高いスループットと低いメモリ使用量が、エージェントが実際に処理できる仕事量そのものを拡大

エネルギー効率

  • 1-bit Bonsai 8B は16ビットフル精度モデルに比べて 約4〜5倍優れたエネルギー効率 を達成
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • AI が基盤インフラとして定着するには、エネルギー効率の飛躍的改善が不可欠

1ビット専用ハードウェアの潜在力

  • 現在の性能向上は主に1ビットモデルの 縮小されたメモリフットプリント に由来しており、推論時に1ビット重み構造を完全活用することはまだ達成されていない
  • MLPのような線形層では、1ビット重みは乗算演算を加算に置き換えることを可能にする
  • 1ビット推論専用ハードウェア が設計されれば、性能とエネルギー効率をさらに1桁台倍率だけ向上させられる可能性がある

Bonsai 4Bおよび1.7Bモデル

  • 1-bit Bonsai 4B1-bit Bonsai 1.7B の2つの小型モデルも同時に公開
  • 主要な instruct モデル20種(1.2GB〜16.4GB範囲)と比較したインテリジェンス対サイズの散布図では、Bonsaiファミリー全体が既存のParetoフロンティアを大きく左へ移動 させた
  • 既存のParetoフロンティアは Qwen3 0.6B、1.7B、4B、8B および Ministral3 3B で構成されていたが、Bonsaiファミリーが新たなフロンティアを定義

集約された知能が可能にすること

  • モデルがオンデバイスで動作できるほど小さく、高速で、高効率になると、AI製品の設計空間は即座に変わる:
    • 応答性向上: オンデバイス推論によりネットワーク遅延なく動作
    • プライバシー強化: 機密データがデバイス外に出ない
    • 信頼性向上: 継続的なクラウド接続への依存を低減
    • 経済性の確保: サーバー側展開がコスト面で不可能だった環境でもAIを活用可能
  • 新たに開かれるカテゴリ: 常時オンデバイスエージェント、リアルタイムロボティクス、セキュリティエンタープライズ向けコパイロット、オフライン知能、帯域幅・電力・規制制約環境向けのAIネイティブ製品

プラットフォーム対応と公開方式

  • 1-bit Bonsai 8B は Appleデバイス(Mac, iPhone, iPad)で MLX 経由、NVIDIA GPUで llama.cpp CUDA 経由のネイティブ実行をサポート
  • モデル重みは現在 Apache 2.0 ライセンス で公開
  • 学習・評価・ベンチマークプロセスの技術的詳細は公式 whitepaper で提供

2件のコメント

 
runableapp 28 일 전

良い情報です。

 
GN⁺ 28 일 전
Hacker Newsの反応
  • 1.125ビットという表現(1ビット重み + 128個グループごとに共有される16ビットスケール)は技術的に誠実な数値だと強調している
    「商業的に実用可能」というのが推論コスト基準なのか、あるいはファインチューニング前提で可能なのかを区別する必要がある
    MicrosoftのBitNet論文のように、最初から1ビットを目標に学習されたモデルであれば、単なる量子化モデルとはまったく別物だ
    特に汎用ハードウェア上での推論効率はINT4量子化よりはるかに魅力的に感じられる
    ただしベンチマークは量子化された大型モデルと比較されており、実際の主張の本質がやや埋もれている
    多段階推論が必要な作業でも性能が維持されるのか見てみたい

  • 1ビット + FP16スケール(128ビットごとに1個)という構造がこれほどよく機能するのは興味深い
    CursorでWebページのテストを生成してみたが、ツール使用能力はかなり印象的だった
    πのモンテカルロシミュレーションでは論理は正しかったが、インターフェース生成には失敗し、いくらか手動修正が必要だった
    Pelicanの描画結果は非常に抽象的だった
    公式デモがないため、ローカルのllama.cppインスタンスを公開している

    • リンクのおかげで直接試してみたが、応答速度が非常に速い
      RスクリプトやLaTeX数式生成などさまざまな依頼を試し、特にオイラーの公式は完璧に生成された
      小さな1ビットモデルにもかかわらず知識密度が高く、反応も速い
    • 美術史専攻として、「自転車に乗ったペリカン」というアイデアには全面的に賛成だ
    • ngrokリンクがアクセス殺到で塞がれたため、Google Colab版を共有している
    • Prismのllama.cppフォークが必要なのか気になる
    • 初期のChatGPTのように、たいていは合っているが時々でたらめを言う感じだ
      「思考ステップ」を追加したり検索ベースの補強を入れたりすれば、ずっと実用的になりそうだ
  • 自作のSQLデバッグベンチマークを回してみたところ、かなり印象的だった
    25問中8問通過、失敗0、エラー17で、Qwen3.5-4BとNanbeige4.1-3Bの中間くらいの水準だ
    全テストが200秒で終わり、速度面ではGranite 7B 4bitよりはるかに効率的だった
    結果はSQLベンチマークサイトで確認できる

    • 自分も@freakynitのrunpodを使った
      個人的にはPomodoroアプリを作るテストをしたが、完成度は低いものの特定の領域ではかなり使えた
      文章力も意外によく、em dashの使用が少ない点も興味深い
      HTML生成は弱いが、1ビットモデルとNgram-embeddingを組み合わせれば新しい可能性が多そうだ
      自作のプロトタイプコードも共有している
  • 最新更新されたLocally AIアプリで、iPhoneでも実行できる
    1.2GBというサイズの割には驚くほど高性能だ
    ペリカンのSVG結果はコメントはよかったが、絵は今ひとつだった

    • 小型モデルはタイムゾーン変換に非常に弱いことが分かった
      「台湾標準時の9:30amは米国太平洋時間で何時か?」と聞いたが、どのモデルも正答できなかった
    • ペリカンに自転車を頼んだのか、それともモデルが創造的に付け加えたのか気になる
  • 8GiBモデルをRTX 3090で5時間公開運用した
    サーバーリンクと実行コマンドを共有している
    5並列リクエスト、約13Kトークン制限、VRAM使用量は4GiB
    190t/sで出力されるなど、非常に高速だった

    • KVキャッシュは精度を落とさず維持したほうがよいと助言している
    • このモデルと会話するのは本当に楽しい
      会話例では、「洗車場まで歩くべきか運転すべきか」と尋ねると創造的な答えが返ってきた
    • スポットインスタンス終了でサーバーが停止したと追記している
    • 速度に感嘆している
    • Pastebinの結果も共有し、弱いモデルではこうした結果は出せないと述べている
  • GPUがなかったのでCPUで動かしたが、古いノートPCでも0.6t/sから、AVX2追加後は12t/sまで向上した
    なかなか悪くない性能だと感じた

    • AVX2ビルドでも遅い、あるいは意味のない出力しか出なかったというフィードバックもあった
      git checkout prism の手順を飛ばしていたのが原因で、修正後は正常に動作した
    • 「not shabby」という表現は控えめすぎると冗談を言っている
  • 大規模モデルの未来はfloatよりビット単位に向かうと思う
    float値の大半は狭い範囲に集中していて非効率で、最終的にはビット演算で実装される
    ただし問題は、GPUと理論的基盤が実数演算に合わせて作られていることだ

    • 低ビット幅での推論は容易だが、学習は難しく不安定
      float形式が維持されているのは、単にGPUスタックとの互換性が高いからでもある
    • この論文では学習までバイナリベースで実施している
      「Boolean variation」という概念を導入し、微分を二進形式で定義して直接逆伝播を行っている
  • スパイキングニューラルネットワークとの類似が興味深い
    スパイクの有無で1ビット通信を行い、アナログの膜電位を使う
    5,000個のIzhikevichニューロンで四足歩行制御を行ったところ、PPOより効率的だった
    1ビット効率はLLMにとどまらない概念だ

  • 「-log error / model size」の比率が1に近いなら、エラー率が40%程度という意味なのか気になる
    数学的には error/model size = 1/e になるという計算も付け加えている

  • Bonsaiは8Bモデルを1.15GBで提供しているが、27Bや35Bモデルはどれくらいのサイズになるのか気になる
    スケーリングが維持されるなら、100Bモデルでも64GB RAMに収まりそうだ

    • ただし問題は学習コストだ
      おそらくフル精度モデルと同じくらい高価なはずで、そうでなければすでに言及されていたはずだ