iPhone 17 Proで400B LLMを実行する
(twitter.com/anemll)- iPhone 17 Proで4,000億パラメータ規模のLLMを動作、速度は毎秒0.6トークン程度
- モデルはMixture of Experts(MoE)構造で、実際に有効化される重みは約50億パラメータ
- 4bit量子化バージョンとして再構成したが、非常に遅い
- GPU・CPU RAMの二重活用とSSDストリーミング読み込み方式を使用
- Flash-Moeをフォークし、Anemll/flash-moe (iOS-Appブランチ)で公開
1件のコメント
Hacker Newsのコメント
SSDからGPUへ直接ストリーミングする方式が、Appleの2023年の論文LLM in a Flashに基づいているのか気になる
夢の中でみんなが超知能AIをポケットに入れて持ち歩いていたのに、結局はdoomscrollingとcatfishingばかりして世界が滅ぶ場面を見た
私のiPad Air(M2)はローカルLLMをかなりうまく動かせるが、数秒で過熱し、すぐにスロットリングがかかる
Qwen3.5-397B-A17Bは実際には17Bモデルのように動作する。MoE部分を省略したタイトルは単なる誇大宣伝にすぎない。
量子化(quantization)も一種のチートコードで、いつか誰かが1-bit量子化モデルを「大規模モデル」だと言い張るかもしれない
「400Bモデルとはいっても、MoE構造なら実際のアクティブパラメータはどれくらいなのか?」という疑問がある
この話題は、昔llama.cが初めて登場してローカル実行が可能になったとき、みんなが興奮していた時代を思い出させる
古いAndroidスマホ(LineageOS)にTermuxをインストールし、その中でOllamaと小さなモデルを動かしてみた。性能はひどかったが、ちゃんと動く
QwenのMoEモデルは、アクティブ状態が2Bレベルまで下がると性能が急激に低下する。実際の推論では数十倍少ないパラメータしか使っていないのに、それを400Bモデルと呼ぶのは無意味だ
「この程度の性能のモデルが毎秒100トークンで動くようになるには、あとどれくらいかかるのか?」という質問がある
anemllをフォローしていないなら、彼がiPhone向けOpenClawも動かせるバージョンを公開していることは知っておくとよい。
ハードウェアとモデルが進化するにつれて、モバイルAIの未来はかなり明るく見える