6 ポイント 投稿者 GN⁺ 2026-03-24 | 1件のコメント | WhatsAppで共有
  • iPhone 17 Pro4,000億パラメータ規模のLLMを動作、速度は毎秒0.6トークン程度
  • モデルはMixture of Experts(MoE)構造で、実際に有効化される重みは約50億パラメータ
  • 4bit量子化バージョンとして再構成したが、非常に遅い
  • GPU・CPU RAMの二重活用SSDストリーミング読み込み方式を使用
  • Flash-Moeをフォークし、Anemll/flash-moe (iOS-Appブランチ)で公開

1件のコメント

 
GN⁺ 2026-03-24
Hacker Newsのコメント
  • SSDからGPUへ直接ストリーミングする方式が、Appleの2023年の論文LLM in a Flashに基づいているのか気になる

    • その通り。関連する詳細は私のブログ記事にまとめてある
    • 類似のアプローチが最近このHNスレッドでも紹介されていた。ただしiPhone ProはRAMが12GBに制限されているため、モデルのアクティブな部分を載せるには足りない。Intel Optaneのような耐久性の高いストレージを使うこともできるが、消費電力が大きく、モバイルには不向き
    • この方式は、Cerebusがweightをストリーミングする構造と大きくは変わらない
  • 夢の中でみんなが超知能AIをポケットに入れて持ち歩いていたのに、結局はdoomscrollingcatfishingばかりして世界が滅ぶ場面を見た

    • 現代版ノストラダムスみたいだと思う
  • 私のiPad Air(M2)はローカルLLMをかなりうまく動かせるが、数秒で過熱し、すぐにスロットリングがかかる

    • 誰かがiPadやスマホ向けの液体冷却システムを作ったことがあるのだろうか。端末の背面に密着させて冷却水を循環させる密閉型デバイスのようなものを想定している
  • Qwen3.5-397B-A17Bは実際には17Bモデルのように動作する。MoE部分を省略したタイトルは単なる誇大宣伝にすぎない。
    量子化(quantization)も一種のチートコードで、いつか誰かが1-bit量子化モデルを「大規模モデル」だと言い張るかもしれない

    • 実際には80Bモデル程度として動作し、世界知識の水準は400Bモデルに近い。モデル構造から量子化、最初のトークン生成時間まで全て公開されているので、誤解の余地はない。こうした試みは一般ユーザー向けというより、コードゴルフのような技術実験に近い
  • 「400Bモデルとはいっても、MoE構造なら実際のアクティブパラメータはどれくらいなのか?」という疑問がある

    • Qwen3.5-397B-A17Bでは17Bパラメータがアクティブになっている。関連コードはflash-moe iOS Appリポジトリで見られる
    • 最近はほとんどの企業がMoE構造を採用している
  • この話題は、昔llama.cが初めて登場してローカル実行が可能になったとき、みんなが興奮していた時代を思い出させる

  • 古いAndroidスマホ(LineageOS)にTermuxをインストールし、その中でOllamaと小さなモデルを動かしてみた。性能はひどかったが、ちゃんと動く

    • 昔Galaxy NoteでLinux Deployを使ってビットコインマイナーを自分でビルドして動かした記憶がある。性能はひどかったが、ポケットの中に完全なコンピュータを入れている気分だった。Nokiaの時代はブラウザのJS以外は何も実行できなかったが、Androidは本当にハック可能なプラットフォームだった
    • 参考までに、私のPixel 8ではQwen3.5 4Bモデルが毎秒2トークンで動く。PocketPalアプリでは問題ないが、Cactusアプリは動かなかった
  • QwenのMoEモデルは、アクティブ状態が2Bレベルまで下がると性能が急激に低下する。実際の推論では数十倍少ないパラメータしか使っていないのに、それを400Bモデルと呼ぶのは無意味だ

  • 「この程度の性能のモデルが毎秒100トークンで動くようになるには、あとどれくらいかかるのか?」という質問がある

    • 唯一の方法は、モデルをハードウェアに直接組み込むことだ。実際にこのブログ記事ではそうしたチップが紹介されているが、大きすぎてスマホには入らない
    • スマホでこうした大規模モデルを動かす価値はない。特定用途向けに小型モデルをファインチューニングした方が、より速く正確だ
    • Liquid AIの**Apollo (LFM2)**モデルはスマホでもかなり高速に動作し、検索結果の要約や数学の問題を解くような作業に役立つ
    • 現実的には不可能だと思う。工学的な解決策がない
    • おそらく15〜20年はかかるだろう。今のスマホでこのモデルが「動く」というのは技術的には正しいが、実際にはRAM容量とメモリ帯域幅が圧倒的に不足している。SSDを使ったデモは可能でも、実用的ではない。結局は新しいアルゴリズム専用チップ設計が必要になる。現在のTransformer構造では限界が明確だ
  • anemllをフォローしていないなら、彼がiPhone向けOpenClawも動かせるバージョンを公開していることは知っておくとよい。
    ハードウェアとモデルが進化するにつれて、モバイルAIの未来はかなり明るく見える