Apple、オープンAIの実力を誇示：新たに公開したモデルがMistralを上回る性能を発揮

xguru · 2024-07-23T10:51:01+09:00

AppleのDataComp for Language Modelsプロジェクト研究チームが、Hugging FaceでオープンなDCLMモデルファミリーを公開パッケージには、7Bおよび1.4Bパラメータの2つの主要モデルが含まれている 70億（7B）パラメータモデルはベンチマークで良好な性能を示し、Mistral-7Bを上回り、Llama 3やGemmaといった他の主要なオープンモデルにも近い水準このプロジェクトは、モデル重み、学習コード、事前学習データセットを公開しており、真のオープンソースとなっている DCLM(DataComp for Language Models) DataCompプロジェクトは、特にマルチモーダル分野において、AIモデルを学習させるための高品質データセットを設計する協調的な取り組みと説明できる実験を通じて、機械学習（ML）モデルがより大規模なデータセットから高品質データを自動でフィルタリングし選別する、モデルベースのフィルタリングが高品質な学習セット構築の鍵になり得ることが分かった結果として得られたデータセットDCLM-Baselineは、70億および14億パラメータの新しいDCLMデコーダ専用トランスフォーマー英語言語モデルをゼロから学習するために使用された 70億モデルは、OpenLMフレームワークに基づく事前学習レシピを用いて2.5兆トークンで学習され、MMLUで63.7%の5-shot精度を提供これは従来の最先端オープンデータ言語モデルであるMAP-Neoと比べて6.6ポイント向上しており、学習に使った計算資源は40%少ない強力でより小さなモデル 14億（1.4B）版モデルも、MMLU、Core、Extendedテストで印象的な性能を示した 5-shot MMLUテストでは41.9%を記録し、Hugging Faceの最近公開されたSmolLMを含む、このカテゴリの他モデルを大きく上回った現在、より大きなモデルはAppleのSample Code Licenseの下で利用可能で、より小さなモデルは商用利用、配布、改変を認めるApache 2.0の下で公開されている HFライブラリには、70億パラメータモデルのinstruction-tuned版もあるこれはデータキュレーションの効果を強調する初期研究である点に注意が必要このモデルはAppleデバイス向けではなく、テスト学習データに由来する特定のバイアスが現れたり、有害な応答を引き起こしたりする可能性がある

(venturebeat.com)

4 ポイント投稿者 xguru 2024-07-23 | 3件のコメント | WhatsAppで共有

AppleのDataComp for Language Modelsプロジェクト研究チームが、Hugging FaceでオープンなDCLMモデルファミリーを公開
パッケージには、7Bおよび1.4Bパラメータの2つの主要モデルが含まれている
70億（7B）パラメータモデルはベンチマークで良好な性能を示し、Mistral-7Bを上回り、Llama 3やGemmaといった他の主要なオープンモデルにも近い水準
このプロジェクトは、モデル重み、学習コード、事前学習データセットを公開しており、真のオープンソースとなっている

DCLM(DataComp for Language Models)

DataCompプロジェクトは、特にマルチモーダル分野において、AIモデルを学習させるための高品質データセットを設計する協調的な取り組みと説明できる
実験を通じて、機械学習（ML）モデルがより大規模なデータセットから高品質データを自動でフィルタリングし選別する、モデルベースのフィルタリングが高品質な学習セット構築の鍵になり得ることが分かった
結果として得られたデータセットDCLM-Baselineは、70億および14億パラメータの新しいDCLMデコーダ専用トランスフォーマー英語言語モデルをゼロから学習するために使用された
70億モデルは、OpenLMフレームワークに基づく事前学習レシピを用いて2.5兆トークンで学習され、MMLUで63.7%の5-shot精度を提供
これは従来の最先端オープンデータ言語モデルであるMAP-Neoと比べて6.6ポイント向上しており、学習に使った計算資源は40%少ない

強力でより小さなモデル

14億（1.4B）版モデルも、MMLU、Core、Extendedテストで印象的な性能を示した
5-shot MMLUテストでは41.9%を記録し、Hugging Faceの最近公開されたSmolLMを含む、このカテゴリの他モデルを大きく上回った
現在、より大きなモデルはAppleのSample Code Licenseの下で利用可能で、より小さなモデルは商用利用、配布、改変を認めるApache 2.0の下で公開されている
HFライブラリには、70億パラメータモデルのinstruction-tuned版もある
これはデータキュレーションの効果を強調する初期研究である点に注意が必要
- このモデルはAppleデバイス向けではなく、テスト学習データに由来する特定のバイアスが現れたり、有害な応答を引き起こしたりする可能性がある

3件のコメント

j2sus91 2024-07-23

iPhoneに搭載してこそ効果が最大化されるのでしょうね
Samsungもオンデバイスに焦点を合わせていますし

xguru 2024-07-23

Apple、オンデバイス利用を目指す8つの小型AI言語モデルをリリース

Appleは引き続きオンデバイスAI向けの小型モデルに注力しているようですね。早く試してみたいです。

godrm 2024-07-23

来年からは本格的に使えるようになるんじゃないでしょうか（笑）

Apple、オープンAIの実力を誇示：新たに公開したモデルがMistralを上回る性能を発揮

DCLM(DataComp for Language Models)

強力でより小さなモデル

関連記事

3件のコメント