Google Gemma 4、iPhoneで完全オフラインのAI推論をサポート

(gizmoweek.com)

3 ポイント投稿者 GN⁺ 14 일 전 | 1件のコメント | WhatsAppで共有

Googleのオープンソースモデル Gemma 4がiPhoneでインターネット接続なしにネイティブ実行され、完全なオフライン推論を実行
Gemma 4の31BモデルはQwen 3.5の27Bモデルと同程度の性能を示し、パラメータ数は約40億個多い
E2B・E4Bバリアントは速度と発熱制御に最適化されたモバイル向けモデルで、GoogleアプリはデフォルトでE2Bの使用を推奨
ユーザーはGoogle AI Edge Galleryアプリを通じてモデルを選択し、APIやクラウドなしでデバイス内推論を実行可能
この実行はオンデバイスAIへの転換の現実化を示し、エッジAIエコシステム拡大の重要なマイルストーンと評価される

iPhoneでのGoogle Gemma 4オンデバイス実行

Googleのオープンソースモデル Gemma 4がiPhoneで完全なオフライン推論をサポートし、ネイティブに動作
- インターネット接続なしでローカル推論を実行可能
- エッジAI展開が未来の課題ではなく、現在進行中の技術的現実へと変わっている
性能比較では、Gemma 4の31BバリアントがQwen 3.5の27Bモデルと同程度の水準と評価される
- Gemmaは約40億個多いパラメータを保有
- 両モデルともタスクごとに強みが異なり、絶対的な優位はない
モバイル最適化モデルであるE2BとE4Bバリアントが注目対象
- 効率性を重視し、速度・軽量性・発熱制御に有利
- GoogleのアプリはデフォルトでE2Bの使用を推奨
Google AI Edge GalleryアプリをApp Storeからダウンロードしてすぐ実行可能
- ユーザーはモデルバリアントを選択し、デバイス内で直接推論を実行
- API呼び出しやクラウド依存性なし
同アプリは単純なテキストインターフェースを超え、画像認識・音声インタラクション・拡張可能なSkillsフレームワークを含む
- オンデバイスAI実験プラットフォームとして設計され、開発者と上級ユーザーが活用可能

技術構造と性能

Gemma 4はiPhoneのGPUを通じた推論経路を使用
- 応答遅延が非常に低く、コンシューマー向けハードウェアでも高性能AIワークロードを処理できることを実証
- ローカルAI展開の商用化可能性を示す重要な事例と評価される
オフライン機能は企業環境での活用度を大きく拡張
- 現場業務・医療環境・データプライバシーが重要な領域で、クラウド依存なしに利用可能

意味と展望

Gemma 4のiPhone実行は単なる技術デモではなく、オンデバイスAI時代の到来を象徴
- GoogleがGemmaを通じてエッジAIエコシステム拡大を本格化している
- 「Gemmaが瓶から出た」という表現のように、AIのローカル化への転換がすでに始まっている状態である

1件のコメント

GN⁺ 14 일 전

Hacker Newsのコメント

記事の文体がLLMが書いたように感じられた
“It’s not mere X — it’s Y” のようなパターンが何度も繰り返されている
- 「gizmoweek dot com」の倫理基準を疑うなんて信じられない、という冗談を飛ばしている
- 書き手が人間でもLLMでも関係ない。問題は詳細情報の欠如だという。iPhoneモデル別ベンチマークもなく、内容がほとんど空だとしている
- Claude、Grok など複数のモデルで試したところ、出典不足や反復的な文など、コンテンツファーム特有の問題をすべて指摘したという。著者が実在人物かどうかすら証明できないとしている
- 「:v」絵文字を見て、久しぶりにミレニアル世代を見つけたようでうれしくなったとしている
- AIが特定の言語パターンを避けるよう私たちを訓練しているような感覚があるという。弱い言い回しの人質にはなりたくないと表現している
推論が Apple Neural Engine ではなくGPU経由で実行されていることを見つけた
GoogleのエンジニアはAppleの独自テンソルブロック向けカスタムカーネルのコンパイルを断念したようだ。Metalは移植しやすいが、バッテリー消費が激しい。ANEバックエンドが書き直されるまでは単なる技術デモの域だとしている
- ANEはLLM実行に実用的にはあまり向いていない。LLMエコシステムがCPU/GPU中心で標準化されており、AppleのMLXですらANEをサポートしていない
- 数か月後のWWDCでCoreMLを置き換えるCore AIフレームワークが発表されるという 9to5macの記事に触れ、期待を示している
- ANEは少なくとも128ベクトル単位で束ねないと効率が出ない。トークン生成には非効率だが、Flash-MoEやDFlashのような最新手法のおかげで以前よりは楽観的だとしている
- 消費電力は問題ないが、24時間365日のバックグラウンド常時リスニングのような機能はプライバシー管理の面で好ましくないとしている
- AndroidのAI Edge GalleryアプリもGPUしか使っていない。Appleのテンソルブロックの問題というより、Googleが全体的に気を配っていないようだとしている
Gemma 4で**オフラインコーディングアプリ（pucky）**を作り、iPhoneで動かした
GitHubリンク参照。4Bモデルも可能だが、メモリ制約のためデフォルトでは2Bで動作する。TypeScriptの単一ファイルを生成してoxcでコンパイルする。App Store審査を通すのは難しいため、自分でXcodeからビルドする必要がある
- 以前のHNスレッドを参照しつつ、React NativeではなくSwiftに置き換えてみてはどうかと提案している
AppleがApp StoreでローカルLLMを制限しているようだ。自分でアプリを配布しようとしたところ、2.5.2条項に引っかかったという
- AppleはLLM関連の規制をさらに強化していくだろうと予想している。ユーザーが自分でアプリを作れるようになるとAppleのビジネスモデルが脅かされるからだという
- ただしルールは一貫していない。自分の端末ではすでにGoogle Edge GalleryとLocally AIが普通に動いているという
- App Storeガイドライン 2.5.2全文を引用し、なぜローカルLLMがこれに抵触するのか疑問を呈している
- 自分のアプリはANE最適化LLMを搭載し完全オフラインで動作し、審査も1日で通過したという。AppleがAIスパムアプリをふるい落とそうとしている可能性があると分析している。MacRumorsの記事にも言及している
- Cactus Compute関連アプリも同じ問題に直面しているのかと尋ねている
関連スレッドとして Gemma 4 on iPhone を共有している
- 22日前に投稿された iPhone 17 Proが400B LLMを動かした事例にも触れている
iPhone 16 Plusでは速度は非常に速いが、長いメッセージでは急激に遅くなる。熱スロットリングが原因ではない。診断データを見たいとしている
- LLM推論はO(tokens²) の複雑度を持つため、長さに応じて遅くなるのは自然だとしている
Gemma 4を搭載したEdge Gallery iOSアプリを期待していたが、intentsへのアクセス制限やWeb検索用のカスタムプラグインが必要なことなどが不便だとしている。ChatMCPはAPIベースなのでまだ使いやすいという
iPhone 16 ProにGoogle AI Edge Galleryをインストールしてベンチマークを実行した
GPU基準で Prefill 231t/s、Decode 16t/s、最初のトークンまで1.16秒、初期化20秒という結果を共有している
小さなモデルを使うときは注意が必要だ
「犬はアボカドを食べられるか」という質問に、自信満々に『Yes』と答えた。モデルの限界を認識すべきだとしている
- 「技術的には食べることはできるけど……」と冗談めかして返している
オフラインであってもGoogleが入力データや端末情報を収集するのではないかと疑っている
- GitHubソースを見ると、メッセージ内容は収集しないが、モデル使用量の統計は記録している
- Google社内の研修資料で、架空の「gShoe」製品を例にデータ収集のプライバシー問題を扱っているという面白い逸話を共有している
- AppleがGoogleに10億ドルを支払い、オンデバイスAI戦略を進めているとして、今回がそのプレビューかもしれないと述べている

Google Gemma 4、iPhoneで完全オフラインのAI推論をサポート

iPhoneでのGoogle Gemma 4オンデバイス実行

技術構造と性能

意味と展望

関連記事

1件のコメント

Hacker Newsのコメント