- Appleが、スマートフォン上で直接実行できるほど小型のAI言語モデル OpenELM を公開
- OpenELM は "Open-source Efficient Language Models" の略で、Hugging Face で Apple Sample Code License のもと利用可能
- ソースコードは公開されたが、ライセンスに一部制限があるため、一般的な意味での「オープンソース」の定義には当てはまらない可能性がある
OpenELMモデルの特徴
- OpenELM は、2億7000万から30億のパラメータを持つ8つのモデルで構成される
- 最近の研究は、数年前の大規模AI言語モデルに匹敵する性能を持つ小型AI言語モデルの開発に焦点を当てている
- OpenELM モデルは、事前学習済み(pretrained)版と命令調整済み(instruction-tuned)版の2種類で提供される
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct
OpenELMモデルの学習データと性能
- OpenELM は最大2048トークンのコンテキストウィンドウを持つ
- 約1.8兆トークンのデータで学習されており、公開利用可能な RefinedWeb、重複除去版の PILE、RedPajama のサブセット、Dolma v1.6 のサブセットデータセットが含まれる
- Apple の "layer-wise scaling strategy" により、各レイヤーへのパラメータ配分をより効率化し、計算資源を節約しつつモデル性能を向上
- OpenELM は、Allen AI の OLMo 1B よりも半分の事前学習トークン数で、2.36%高い精度を示した
公開された追加資料とAppleの狙い
- Apple は、OpenELM の学習に使われた CoreNet ライブラリのコードと、再現可能な学習レシピを公開
- 主要テック企業としては珍しく、重みまで公開して透明性を強調
- ソースコード、モデルの重み、学習資料を公開することで、「オープンな研究コミュニティを強化し、より豊かにすること」を目標としている
- ただし、公開データセットで学習されているため、不正確、有害、偏向的、または不快感を与えうる出力が生じる可能性があると警告
今後の見通し
- Apple はまだ、新しいAI言語モデル機能を一般消費者向けデバイスに統合していない
- ただし、6月の WWDC で公開が見込まれる iOS 18 アップデートには、ユーザーのプライバシー保護のためデバイス上処理を活用する新しいAI機能が含まれるとみられている
- より複雑なデバイス外AI処理のために、Google や OpenAI を起用して Siri を強化する可能性もある
2件のコメント
iOS 18のアップデートでどれほど大きく変わるのか気になります。AI機能が強化されたM4にも期待大です!