MLC-LLMでiOS上でローカルLLM（Gemma 3）を実行する

(blog.devstory.co.kr)

3 ポイント投稿者 caaat 2026-03-12 | 8件のコメント | WhatsAppで共有

Gemma 3 モデルをMLC-LLM経由でiOSデバイス上でローカル実行する方法と、実際の動作性能指標を整理した投稿です。

MLC-LLMの活用: Metal APIアクセラレーションにより、モバイルデバイスでもレイテンシがほぼない快適な推論環境を構築
Gemma 3 1Bのビルド過程: Hugging Faceモデルのダウンロードから q4f16_1 量子化、対話テンプレート（gemma3_instruction）の適用、Metalカーネルのコンパイルまでの全ワークフローガイド
性能およびリソース指標:
- Gemma 2 2B: 約2.4GBのVRAMを使用
- Gemma 3 1B: 約1.14GBのVRAMを使用
実行のコツ: mlc-package-config.json の設定を通じて、カスタムモデルをXcodeプロジェクトにパッケージングする方法も含む

8件のコメント

wedding 2026-03-17

私はGalaxy Fold 4でqwen 3 0.6b q5を動かしていますが、今のところは少し物足りない感じです。

dolsangodkimchi 2026-03-18

どの部分に物足りなさを感じたのか気になります。
モデルが小さすぎて LLM の性能に物足りなさを感じたのか、それともローカルで実行した際の実行パフォーマンスに物足りなさを感じたのかが気になります。

wedding 2026-03-20

パフォーマンスが少し物足りないです。GPUや特定のNPUのサポートがまだなくて遅いです..

newbie1004 2026-03-13

私はGalaxy Note 20 Ultraで gemma3 1b int4 モデルを研究中です。

旧モデルでも動くレベルです。

kaboom45 2026-03-14

おお、もしかして Vulkan アクセラレーションは使えますか？

wedding 2026-03-24

できるらしいですが、私はできません（泣）

kji96 2026-03-13

Galaxy Note20 では、もう少し低いスペックの CPU でもうまく動作する（十分に最適化された）モデルが出るまでは、快適に使うのは難しいのではないでしょうか?

上の内容を見ると、Mac 専用の Metal カーネル向けに作られたと書かれています。
MLX を使えば、一般的な GGUF より高速なロードと実行が可能だと認識しています。

newbie1004 2026-03-13

でも、4Bまでは微妙です ;;