phi-3-mini 言語モデルの紹介
- phi-3-miniは3.8Bパラメータを持つ言語モデルで、3.3兆トークンで学習されている
- 学術ベンチマークと内部テストの結果、Mixtral 8x7B、GPT-3.5などのモデルに匹敵する性能を示す(MMLU 69%、MT-bench 8.38点)
- スマートフォンに展開できるほど小さいサイズでありながら、優れた性能を示す
- phi-2で使用されたデータセットを拡張したバージョンで、フィルタリングされたWebデータと合成データで構成されている
- 堅牢性、安全性、チャット形式のために追加でアラインメントが行われている
phi-3-small、phi-3-medium モデルの紹介
- 4.8兆トークンで学習された7B、14Bモデルであるphi-3-smallとphi-3-mediumの初期パラメータスケーリング結果も提供されている
- phi-3-miniよりはるかに優れた性能を示す(MMLU 75%、78%、MT-bench 8.7点、8.9点)
GN⁺の意見
- スマートフォンで利用できる小型の言語モデルが高性能を示している点が印象的。今後はモバイル機器でのAI活用の可能性がさらに高まりそう
- ただし、個人情報保護やプライバシーの問題への懸念はあり得る。ローカルデバイスで処理される場合でも、ユーザーデータは安全に管理される必要がある
- Webデータと合成データを活用した学習方式が興味深い。データ収集と精製には多くの努力が必要だったと思われる。高品質なデータが優れた性能につながることを示す事例
- モデルサイズによる性能比較の結果も興味深い。適切なサイズのモデルを選ぶことが、効率性の面で重要に見える
- Stability AIのStableLM、AnthropicのClaudeなど、軽量化されたオープンソース言語モデルが登場している。さまざまな活用事例が出てくることが期待される
2件のコメント
Microsoft、2.7Bで小さいながらも強力な Phi-2 言語モデルを公開
Hacker Newsの意見
Phi-3モデルのベンチマーク結果については慎重な解釈が必要。以前のPhi-2モデルでも、実際の性能がベンチマーク数値より低かった前例がある。実運用やLMSYSリーダーボードの順位にそのまま直結するとは限らない。
それでもPhi-3は小さなモデルサイズで優れた性能を示している。GPT-4の性能を小型モデルへ移す「合成データ」による蒸留(distillation)方式が有効である可能性を示唆している。巨大モデルを最適に学習させた後、小型モデルへ蒸留するChinchilla方式の可能性もうかがえる。
LMSYS英語リーダーボードでは、Phi-3モデル群がLlama 3、GPT-3.5などと肩を並べる性能を見せている。特にPhi-3-mini 3.8Bは、3.8BパラメータでLlama 3 8Bに匹敵する。スマートフォン上で動くGPT-4級のオープンソースLLMが登場する可能性を示している。
ただし、この種のベンチマークにはモデルがgamingしやすいという限界がある。個別のtaskよりも全体的な性能に注目する必要がある。複数の観点から綿密な検証が必要そうだ。
Phi-3モデルの一部がHuggingFaceで公開された。モデル活用はより容易になる見込みだ。
3.3兆トークンに及ぶ膨大な合成データ学習がモデル軽量化に寄与している。著作権問題の解消にも役立つ可能性がある。
しかし実際に使うと、学習データの外側の領域ではかなりもっともらしくない出力をする。狭いタスク向けのfinetuningには有効だろうが、一般的な対話でGPT-3.5を置き換えるのは難しそうだ。
モデル重みが4k、128kコンテキスト版としてHuggingFaceに公開された。finetuningやRAG(Retrieval-Augmented Generation)への活用可能性に関心が集まっている。