Google Gemma 4、iPhoneで完全オフラインのAI推論をサポート
(gizmoweek.com)- Googleのオープンソースモデル Gemma 4がiPhoneでインターネット接続なしにネイティブ実行され、完全なオフライン推論を実行
- Gemma 4の31BモデルはQwen 3.5の27Bモデルと同程度の性能を示し、パラメータ数は約40億個多い
- E2B・E4Bバリアントは速度と発熱制御に最適化されたモバイル向けモデルで、GoogleアプリはデフォルトでE2Bの使用を推奨
- ユーザーはGoogle AI Edge Galleryアプリを通じてモデルを選択し、APIやクラウドなしでデバイス内推論を実行可能
- この実行はオンデバイスAIへの転換の現実化を示し、エッジAIエコシステム拡大の重要なマイルストーンと評価される
iPhoneでのGoogle Gemma 4オンデバイス実行
- Googleのオープンソースモデル Gemma 4がiPhoneで完全なオフライン推論をサポートし、ネイティブに動作
- インターネット接続なしでローカル推論を実行可能
- エッジAI展開が未来の課題ではなく、現在進行中の技術的現実へと変わっている
- 性能比較では、Gemma 4の31BバリアントがQwen 3.5の27Bモデルと同程度の水準と評価される
- Gemmaは約40億個多いパラメータを保有
- 両モデルともタスクごとに強みが異なり、絶対的な優位はない
- モバイル最適化モデルであるE2BとE4Bバリアントが注目対象
- 効率性を重視し、速度・軽量性・発熱制御に有利
- GoogleのアプリはデフォルトでE2Bの使用を推奨
- Google AI Edge GalleryアプリをApp Storeからダウンロードしてすぐ実行可能
- ユーザーはモデルバリアントを選択し、デバイス内で直接推論を実行
- API呼び出しやクラウド依存性なし
- 同アプリは単純なテキストインターフェースを超え、画像認識・音声インタラクション・拡張可能なSkillsフレームワークを含む
- オンデバイスAI実験プラットフォームとして設計され、開発者と上級ユーザーが活用可能
技術構造と性能
- Gemma 4はiPhoneのGPUを通じた推論経路を使用
- 応答遅延が非常に低く、コンシューマー向けハードウェアでも高性能AIワークロードを処理できることを実証
- ローカルAI展開の商用化可能性を示す重要な事例と評価される
- オフライン機能は企業環境での活用度を大きく拡張
- 現場業務・医療環境・データプライバシーが重要な領域で、クラウド依存なしに利用可能
意味と展望
- Gemma 4のiPhone実行は単なる技術デモではなく、オンデバイスAI時代の到来を象徴
- GoogleがGemmaを通じてエッジAIエコシステム拡大を本格化している
- 「Gemmaが瓶から出た」という表現のように、AIのローカル化への転換がすでに始まっている状態である
1件のコメント
Hacker Newsのコメント
記事の文体がLLMが書いたように感じられた
“It’s not mere X — it’s Y” のようなパターンが何度も繰り返されている
推論が Apple Neural Engine ではなくGPU経由で実行されていることを見つけた
GoogleのエンジニアはAppleの独自テンソルブロック向けカスタムカーネルのコンパイルを断念したようだ。Metalは移植しやすいが、バッテリー消費が激しい。ANEバックエンドが書き直されるまでは単なる技術デモの域だとしている
Gemma 4で**オフラインコーディングアプリ(pucky)**を作り、iPhoneで動かした
GitHubリンク 参照。4Bモデルも可能だが、メモリ制約のためデフォルトでは2Bで動作する。TypeScriptの単一ファイルを生成してoxcでコンパイルする。App Store審査を通すのは難しいため、自分でXcodeからビルドする必要がある
AppleがApp StoreでローカルLLMを制限しているようだ。自分でアプリを配布しようとしたところ、2.5.2条項に引っかかったという
関連スレッドとして Gemma 4 on iPhone を共有している
iPhone 16 Plusでは速度は非常に速いが、長いメッセージでは急激に遅くなる。熱スロットリングが原因ではない。診断データを見たいとしている
Gemma 4を搭載したEdge Gallery iOSアプリを期待していたが、intentsへのアクセス制限やWeb検索用のカスタムプラグインが必要なことなどが不便だとしている。ChatMCPはAPIベースなのでまだ使いやすいという
iPhone 16 ProにGoogle AI Edge Galleryをインストールしてベンチマークを実行した
GPU基準で Prefill 231t/s、Decode 16t/s、最初のトークンまで1.16秒、初期化20秒という結果を共有している
小さなモデルを使うときは注意が必要だ
「犬はアボカドを食べられるか」という質問に、自信満々に『Yes』と答えた。モデルの限界を認識すべきだとしている
オフラインであってもGoogleが入力データや端末情報を収集するのではないかと疑っている