- ICML 2024で発表された論文「MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases」で紹介されたMobileLLMの学習コードを含む
- この研究では、10億未満のパラメータを持つ高品質なLLMを得るために、複数の設計要素を総合的に考慮している
- MobileLLMは、(1) SwiGLU活性化関数、(2) 深くて細いアーキテクチャ、(3) 埋め込み共有、(4) グループ化クエリアテンションを統合して構築されている
- MobileLLM-125M/350Mは、従来の125M/350M SoTAモデルと比べて、ゼロショット常識推論タスクでそれぞれ2.7%/4.3%の精度向上を達成している
- 更新版では、MobileLLM-600M/1B/1.5Bモデルがより大きなモデルへと拡張され、SoTAの結果を示している
GN⁺のまとめ
- MobileLLMは、10億未満のパラメータを持つ高品質な言語モデルのための最適化された設計思想を提示している
- SwiGLU活性化関数、深くて細いアーキテクチャ、埋め込み共有、グループ化クエリアテンションなどの要素を統合して性能を向上させている
- ゼロショット常識推論タスクで既存モデルより高い精度を達成している
- この研究は、モバイルおよび組み込みデバイスにおける言語モデルのユースケースに重要な貢献をしている
- 類似機能を持つプロジェクトとしては、GPT-neo、OPT、BLOOMなどがある
1件のコメント
Hacker Newsの意見
MobileLLM-125M/350Mモデルは、従来の125M/350M SoTAモデルよりも精度が2.7%/4.3%向上していることを示している
1.5Bパラメータモデルがかなり大きな進歩を遂げたと述べている
Apple Watchに小型モデルの推論を実行するハードウェア能力があるのか気になっている
モバイルデバイスに限定する必要があるのかと質問している
現時点では、wake-wordのようなSTTをデバイス上で動かす必要があると述べている
iPhoneで実行できるアプリを探している
「より深く、より薄く」の部分をどこまで突き詰められるのか気になっている
蒸留のような手法が役に立つのかと質問している
小型モデルは、線形ヘッドとトークン埋め込みの共有/重み束縛によって最大のサイズ削減を得ているようだと述べている
このモデルを使ってWindows PCでもモデルを訓練できるのかと質問している
興味深いが、より良い自動補完以外にどのようなユースケースがあるのか気になっている