2 ポイント 投稿者 brainer 2024-04-25 | 1件のコメント | WhatsAppで共有

• OpenELMは、大規模言語モデル分野における再現性と透明性を促進する最先端のオープン言語モデルとして紹介されている。OpenELMは層ごとのスケーリング戦略を用いることで、各Transformerモデル層内でパラメータを効率的に割り当て、精度を向上させる。たとえば、約10億パラメータの予算で、OpenELMは事前学習トークンを半分しか必要としない一方で、OLMoを2.36%上回る。

• モデルの重みと推論コードのみを提供していた従来の慣行とは異なり、OpenELMは公開利用可能なデータセットを用いて言語モデルを学習・評価するための包括的なフレームワークを提供する。これには、学習ログ、複数のチェックポイント、事前学習構成が含まれる。さらに、Appleデバイス上での推論およびファインチューニングのために、モデルをMLXライブラリへ変換するコードも提供されている。

• OpenELMの公開は、完全な学習・推論フレームワークへのアクセスを提供することで、将来のオープン研究の取り組みを育むためにオープン研究コミュニティを支援することを目指している。ソースコード、事前学習済みモデルの重み、学習レシピは、Hugging Faceでのモデル公開とあわせて容易に利用できる。

1件のコメント

 
cosine20 2024-04-25

Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

周囲の反応を見てみると、MMLUがあまりにも低く、学習に使われたデータセットもちょっと古いものだという声があるようですね。
古いモデルだから、あえてオープンソース化したのではないかという話も…