- Appleがビジョン・言語AIモデル(AFM, Apple Foundation Models)と**開発者向けFoundation Modelsフレームワーク(API)**を新たに公開し、オンデバイス・クラウドモデルの両方で性能と効率を大きく改善
- AFMオンデバイスモデルは30億パラメータのトランスフォーマーと3億パラメータのビジョントランスフォーマーで構成され、テキスト・画像入力および多言語・ビジョン機能をサポート。サーバーモデルにはカスタムMoEアーキテクチャを適用
- モデル軽量化(量子化およびLoRA)、15言語対応、画像理解、ツール使用など強力な機能と開発者アクセス性を提供
- オンデバイスモデルは米国外英語・画像理解で競合モデルより強みを見せた一方、サーバーモデルはGPT-4oなど最新モデルと比べて性能が見劣りする
- 最近議論を呼んだAppleの論文、Siri AIアップグレードの遅延など、AppleのAI戦略転換とiOSエコシステム内での影響力に注目が集まっている
Apple Foundation Models(AFM)の大規模アップデート
- Appleはオンデバイス(モバイル搭載型)とサーバーホスティング型AIモデル(AFM)の両方をアップグレードし、速度・効率・性能を大幅に改善した
- 開発者API(Foundation Models framework)を新たに提供し、Apple Intelligence機能が有効化されたデバイスでオンデバイスAIの呼び出しが可能になった
中核アーキテクチャと機能
- 入出力: テキスト、画像(最大65,000トークン入力)、出力はテキスト
- アーキテクチャ:
- AFM-on-Device: 30億パラメータのトランスフォーマー、3億パラメータのビジョントランスフォーマー
- AFM-Server: カスタムMixture-of-Experts(MoE)トランスフォーマー(パラメータ数非公開)、10億パラメータのビジョントランスフォーマー
- 性能: 米国外英語・画像理解に強み
- 可用性: AFM-on-DeviceはFoundation Modelsフレームワークで利用可能。AFM-Serverは一般公開されていない
- 15言語対応、ツール使用などを提供
- 未公開情報: サーバーモデルのパラメータ数、トークン制限、学習データセットの詳細などは非公開
技術的差別化要素と最適化
- 量子化(Quantization):
- オンデバイスモデルは大半の重みを2ビット、埋め込み層を4ビットに圧縮(量子化認識学習を活用)
- サーバーモデルはASTC(グラフィックス向け圧縮)を適用し、平均3.56ビット(埋め込み4ビット)に圧縮
- LoRAアダプターで圧縮に伴う性能低下を補い、要約・校正・質疑応答など特定業務向けに適応
- カスタムMoEアーキテクチャによりハードウェア間通信オーバーヘッドを最小化し、効率を向上
性能評価
- オンデバイスモデル: 米国外英語・画像理解でQwen2.5-VL-3Bなど競合モデルを上回る
- サーバーモデル: Qwen3-23Bをわずかに上回る場合もあるが、GPT-4oなど最新モデルには及ばない
最近の論争とAI戦略の変化
- Appleは最近、5つの最新AIモデルの推論能力の限界を実験した論文で論争を呼び、反論論文も相次いで登場した
- Siri AIアップグレードは無期限延期となり、新型iPhoneのAI機能不足を巡る集団訴訟も提起された
- Google/Android陣営が急速にAI競争で先行する状況の中、AppleはFoundation Modelsなどを通じてAI戦略を転換しつつある
今後の展望と影響
- iOSが標準搭載モデルとしてアプリ開発者エコシステムに莫大な影響力を行使する可能性が高い
- メモリ制限とモデル容量の問題から、アプリ開発者が独自にAIモデルをバンドルするよりも、Apple提供モデルの活用が急増する見通し
- AppleのAIプラットフォーム化戦略が、アプリ革新とオンデバイスAI活用の拡大を促進するか注目されている
まだコメントはありません。