- AppleのDataComp for Language Modelsプロジェクト研究チームが、Hugging FaceでオープンなDCLMモデルファミリーを公開
- パッケージには、7Bおよび1.4Bパラメータの2つの主要モデルが含まれている
- 70億(7B)パラメータモデルはベンチマークで良好な性能を示し、Mistral-7Bを上回り、Llama 3やGemmaといった他の主要なオープンモデルにも近い水準
- このプロジェクトは、モデル重み、学習コード、事前学習データセットを公開しており、真のオープンソースとなっている
DCLM(DataComp for Language Models)
- DataCompプロジェクトは、特にマルチモーダル分野において、AIモデルを学習させるための高品質データセットを設計する協調的な取り組みと説明できる
- 実験を通じて、機械学習(ML)モデルがより大規模なデータセットから高品質データを自動でフィルタリングし選別する、モデルベースのフィルタリングが高品質な学習セット構築の鍵になり得ることが分かった
- 結果として得られたデータセットDCLM-Baselineは、70億および14億パラメータの新しいDCLMデコーダ専用トランスフォーマー英語言語モデルをゼロから学習するために使用された
- 70億モデルは、OpenLMフレームワークに基づく事前学習レシピを用いて2.5兆トークンで学習され、MMLUで63.7%の5-shot精度を提供
- これは従来の最先端オープンデータ言語モデルであるMAP-Neoと比べて6.6ポイント向上しており、学習に使った計算資源は40%少ない
強力でより小さなモデル
- 14億(1.4B)版モデルも、MMLU、Core、Extendedテストで印象的な性能を示した
- 5-shot MMLUテストでは41.9%を記録し、Hugging Faceの最近公開されたSmolLMを含む、このカテゴリの他モデルを大きく上回った
- 現在、より大きなモデルはAppleのSample Code Licenseの下で利用可能で、より小さなモデルは商用利用、配布、改変を認めるApache 2.0の下で公開されている
- HFライブラリには、70億パラメータモデルのinstruction-tuned版もある
- これはデータキュレーションの効果を強調する初期研究である点に注意が必要
- このモデルはAppleデバイス向けではなく、テスト学習データに由来する特定のバイアスが現れたり、有害な応答を引き起こしたりする可能性がある
3件のコメント
iPhoneに搭載してこそ効果が最大化されるのでしょうね
Samsungもオンデバイスに焦点を合わせていますし
Apple、オンデバイス利用を目指す8つの小型AI言語モデルをリリース
Appleは引き続きオンデバイスAI向けの小型モデルに注力しているようですね。早く試してみたいです。
来年からは本格的に使えるようになるんじゃないでしょうか(笑)