Appleの新しいオンデバイスおよびサーバーベースのファウンデーションモデルを紹介
(machinelearning.apple.com)- 2024年のWWDCで、iOS 18、iPadOS 18、macOS Sequoiaに深く統合されたパーソナルインテリジェンスシステムであるApple Intelligenceを発表
- Apple Intelligenceは、ユーザーの日常業務に特化した多数の生成モデルで構成され、現在のアクティビティに合わせて即座に適応可能
- 組み込みのファウンデーションモデルは、文書の作成/改善、通知の要約/優先順位付け、会話向けの楽しい画像生成、アプリ間の相互作用の簡素化などのユーザー体験のためにファインチューニングされている
- 2つのモデル、すなわち約30億パラメータのオンデバイス言語モデルと、Private Cloud Computeを通じて提供されるより大規模なサーバーベース言語モデルは、これらの効率的で正確かつ責任ある特化タスクを実行するように構築・適用されている
- これらは、Xcodeでインテリジェンスを構築するためのコーディングモデルや、Messagesアプリで視覚表現を支援する拡散モデルなどを含む、Apple製のより大きな生成モデル群の一部である
責任あるAI開発への注力
- Apple Intelligenceは、あらゆる段階で中核的価値観に沿って設計され、画期的なプライバシー技術革新を基盤として構築されている
- Appleは、AIツールとその基盤となるモデルの開発方法を導く責任あるAI原則を策定している:
- 知的なツールでユーザーを支援する
- ユーザーの代理として機能する
- 慎重に設計する
- プライバシーを保護する
- これらの原則は、Apple Intelligenceを可能にするアーキテクチャ全体に反映されている
Pre-Training
- ファウンデーションモデルは、2023年にオープンソースとして公開したAppleのAXLearnフレームワークで訓練されている
- JAXとXLA上に構築されており、多様なハードウェアとクラウドプラットフォームで効率的かつスケーラブルな訓練が可能
- データ、モデル、シーケンス長など多様な次元で訓練のスケーリングが可能な並列化技術の組み合わせを使用
- ライセンスされたデータと公開データでモデルを訓練。Webパブリッシャーは、データ使用の制御によりApple Intelligenceの訓練からWebコンテンツの使用をオプトアウト可能
- ユーザーの個人データや相互作用は決して使用しない。PII除去フィルタリング、低品質コンテンツのフィルタリング、高品質文書を識別するためのモデルベース分類器を適用
Post-Training
- データ品質がモデルの成功に不可欠であることを確認し、ハイブリッドデータ戦略を活用
- ティーチャー委員会による拒否サンプリングファインチューニングアルゴリズムと、Mirror Descent Policy Optimizationおよびleave-one-out advantage estimatorを使用するRLHFアルゴリズムを開発
- これら2つのアルゴリズムにより、モデルの指示追従品質が大幅に改善された
Optimization
- 高性能な生成モデルの開発に加え、オンデバイスおよびプライベートクラウドで速度と効率を最適化するために多様な革新的技術を適用
- オンデバイスモデルとサーバーモデルの両方でGrouped-Query Attentionを使用
- メモリ要件と推論コスト削減のため、共有入力および出力語彙埋め込みテーブルを使用
- オンデバイスモデルは49Kの語彙サイズを使用し、サーバーモデルは追加の言語および技術トークンを含めて100Kの語彙サイズを使用
- オンデバイス推論のために低ビットパレタイズを使用。非圧縮モデルと同等の精度を得るため、混合2ビットおよび4ビット構成戦略(平均して重みあたり3.5ビット)を統合する新しいLoRAアダプタフレームワークを開発
- Talariaツールを使用して、各タスクに対するビットレート選択をより適切に導く
- 活性化および埋め込み量子化を活用し、効率的なKVキャッシュ更新方式を開発
- この最適化セットにより、iPhone 15 Proでプロンプトトークンあたり約0.6msのtime-to-first-token遅延と、毎秒30トークンの生成速度を達成
Model Adaptation
- ファウンデーションモデルはユーザーの日常的な活動のためにファインチューニングされ、実行中のタスクに合わせて動的に自己特化できる
- 特定タスク向けにモデルをファインチューニングするため、事前学習済みモデルのさまざまな層に接続できる小型のニューラルネットワークモジュールであるアダプタを活用
- アダプタ層のみをファインチューニングすることで、基本となる事前学習済みモデルの元のパラメータは変更されず、一般知識を保持したまま、特定タスク支援のためにアダプタ層がカスタマイズされる
Performance and Evaluation
- ユーザーがApple製品全体でコミュニケーションし、作業し、自分を表現し、物事をこなせるようにする生成モデルの提供に注力
- モデルのベンチマークでは、ユーザー体験との相関が高いことが示された人間評価に焦点を当てている
- 機能別アダプタとファウンデーションモデルの両方について性能評価を実施
要約アダプタ評価の例:
- メールと通知の要約に対する製品要件は微妙だが重要な点で異なるため、これらの特定要件を満たすためにLoRAアダプタをパレタイズ済みモデル上でファインチューニングした
- 訓練データは、高品質な要約のみを残す拒否サンプリング戦略でフィルタリングされた、より大規模なサーバーモデルが生成した合成要約に基づく
- ユースケースごとに慎重にサンプリングされた750件の応答セットを用いて製品別の要約評価を実施
- 評価データセットは、製品機能が本番環境で直面する可能性が高い多様な入力を重視しており、さまざまなコンテンツ型と長さの単一文書および積層文書の層化混合を含む
- 製品機能として実際のユースケースを代表するデータセットに対して性能を評価することが重要
- アダプタ付きモデルが比較可能なモデルよりも優れた要約を生成することを確認
Human Satisfaction Score on Summarization Feature Benchmark
- データ表によると、Appleのオンデバイス+アダプタモデルは、メールおよび通知要約でPhi-3-miniモデルよりも高い満足度「良い」比率と低い満足度「悪い」比率を示した。アダプタ付きモデルの方がより良い要約を生成する。
- Appleのオンデバイスおよびサーバーモデルは、多様な難易度の実際のプロンプトで構成された総合評価セットを用いて一般機能を評価した。これを同程度のサイズのオープンソースおよび商用モデルと比較した結果:
- オンデバイスモデル(約30億パラメータ)は、Phi-3-mini、Mistral-7B、Gemma-7Bなどのより大きなモデルより優れた性能を示した
- サーバーモデルは、DBRX-Instruct、Mixtral-8x22B、GPT-3.5-Turboに匹敵しつつ、非常に高効率
- 有害コンテンツ、センシティブな話題、事実性の観点でモデル性能をテストするため、多様な敵対的プロンプトセットを使用。オンデバイスモデルおよびサーバーモデルはいずれも敵対的プロンプトに直面した際に堅牢で、オープンソースおよび商用モデルより低い違反率を達成した。
- IFEvalベンチマークを用いて同程度のサイズのモデルと指示追従能力を比較した結果、Appleのオンデバイスおよびサーバーモデルは、同クラスのオープンソースおよび商用モデルより詳細な指示にうまく従うことが示された。
- さまざまな執筆指示で構成された内部要約およびライティングベンチマークで、モデルの文章作成能力も評価した。
Writing Benchmarks
- データ表によると、要約とライティングにおいてAppleのオンデバイスおよびサーバーモデルは比較対象モデルと比べて遜色のない良好な性能を示した。
結論
- WWDC24で紹介されたAppleのファウンデーションモデルとアダプタは、iPhone、iPad、Macに深く統合され、言語、画像、動作、個人的コンテキストにまたがる強力な機能を提供する新しいパーソナルインテリジェンスシステムであるApple Intelligenceの基盤となる
- Apple製品全体にわたり、ユーザーが日常的な活動を行うのを支援する目的で作られており、あらゆる段階で責任を持って開発され、Appleの中核的価値観に導かれている
- 言語、拡散、コーディングモデルを含む、より広範な生成モデルファミリーに関する情報をまもなく共有する予定
1件のコメント
Hacker Newsの意見
Adapterの活用: 事前学習済みモデルに対し、さまざまなレイヤーに差し込める小さなニューラルネットワークモジュールであるAdapterを使って、特定のタスク向けにモデルを微調整する。これにより、アプリ開発者は各ハードウェアモデルに最適化されたモデルを利用できる。
期待感: まだサードパーティーのトレーニング支援についての発表はないが、計画中だろうと期待している。ローカル+プライベートMLの難しさは、各アプリが大容量の重みを必要としないようにすることだ。
Appleの機会: Appleには、各チップ向けに最適化されたモデルを提供し、新しいユースケース向けには数MBの重みだけを必要とするAdapterを提供できる機会がある。これはモデルにおけるアプリのスリム化に似ている。
開発者体験: ベースモデルが最新でなくても、開発者体験は優れており、反復可能だ。サーバー側ははるかに簡単で、ローカル+プライベートが多くのユースケースを占めることになると期待している。
Adapterの役割: Adapterを使ってモデルを特定のタスク向けに微調整し、メモリを効率的に管理しつつ、OSの応答性を保証する。Adapterのパラメータは16ビットで表現され、約3億のパラメータを持つモデルでは10MB程度のメモリが必要になる。
LoRAsとの類似: このアプローチはLoRAsに似ているように聞こえる。
比較チャート: 記事の途中には、ほかの関連モデルとの比較チャートが含まれている。サーバー側モデルはGPT-3.5より優れており、GPT-4には劣る。ただし、「出力有害性の人間評価」チャートが特に興味深い。
モデルの慎重さ: GPTを「レベル3」にし、OpenAIのモデルを使って「これはChatGPTが言ったことだ」と明確にする形で、モデルをより慎重にしている。
サーバーモデル利用への期待: この2ページの内容は非常に素晴らしく、Appleスタック向けに最適化されたクラウドを構築するためにサーバーモデルを試してみたい。
メモリ増加への期待: AppleがすべてのMacの標準メモリを8GB超に引き上げることを期待している。16GB M4が標準になってほしいが、Appleは12GBを提供し、16GBオプションに追加料金を課す可能性がある。
データプライバシー: Appleはサードパーティーサービスに何を渡すのかを明確にし、ユーザーが望む場合はオプトアウトできる機能を提供すべきだ。デバイス上で推論を実行することと、OpenAIのAPI経由でデータを送ることは別物だ。
ドメイン名の好み:
machinelearning.apple.comを使っているのが気に入っている。最適化結果: 品質を損なわずに3.5Bの重みを使うのは、最先端の最適化結果だ。
出力有害性評価: Mistral-7Bが小規模モデルの中で、偽陽性による拒否を最小化する点で最も優れていることが確認できる。
バッテリー寿命への影響: こうしたモデルがバッテリー寿命にどのような影響を与えるのか気になる。iPhone 15 ProでPrivateLLMアプリを使ってみたところ、数分使っただけでバッテリー残量が急激に減った。