2023年はオープンLLMの年

xguru · 2023-12-21T10:33:04+09:00

大規模言語モデル（LLM）に対する一般の関心が高まり、オープンソースとクローズドソースをめぐる議論が広がった Pretrained LLMのためのレシピモデルアーキテクチャ: 特定の実装と数学的な形式を説明学習データセット: モデルが学習する例と文書を含むトークナイザー: テキストを数値に変換する方法を定義学習ハイパーパラメータ: モデルの学習方法を定義計算資源と専門家による監視が必要事前学習済みモデルの重みは推論に使用される 2022年、サイズ競争からデータ競争へ 2022年初頭までは、モデルサイズが性能における重要な要素だった BLOOM、OPT、GLM-130B などのモデルがリリース DeepMindの新たな研究によってデータサイズの重要性が強調され、パラダイムシフトが起きた 2023年、オープンリリースの年小型LLMの台頭: 2月には LLaMA（Meta）、4月には Pythia（Eleuther AI）、5月には MPT（MosaicML）、6月には X-GEN（Salesforce）、Falcon（TIIUAE）、7月には Llama 2（Meta）がリリースされた。9月には Qwen（Alibaba）および Mistral（Mistral.AI）、11月には Yi（01-ai）、12月には DeciLM（Deci）、Phi-2（Microsoft）、SOLAR（Upstage）がリリースモデル重みが公開されており、小規模なモデルでも優れた性能を示したため、コミュニティで急速に採用された中核的な違いは学習データとモデルライセンス対話型モデルの登場 2023年には、ほとんどの事前学習済みモデルが対話型バージョンとともに公開されたチャットベースのファインチューニング、インストラクションチューニング、人間のフィードバックによる強化学習（RLHF）、DPO（Direct Preference Optimzation）などの手法を使用 MPT、Falcon、XGen、Llama-2、Qwen、Yi、DeciLM モデルの対話型バージョンが公開コミュニティの役割コミュニティと研究者は、提供されたベースモデルを活用して新しいデータセットとファインチューニング済みモデルを開発多様なデータセットとファインチューニング戦略が公開 Human Preference: OpenAIのWebGPTデータセット、HH-RLHFデータセット（Anthropic）、Summarize（OpenAI） Instruction: BigScienceによる Public Pool of Prompts、Googleによる FLAN 1 and 2、AllenAIによる Natural Instructions、Self Instruct、SuperNatural instructions、Unnatural instructions Human ChatGPT Instruction corpus（HC3）、Alpaca、Vicuna、ShareGPT、Koala、Dolly、UltraChat、UltraLM、Zephyr、OpenHermes2,.. アクセシビリティの大衆化モデル/データマージ: モデルの重みを結合して強みを統合 PEFT: モデル全体を使わなくてもファインチューニングが可能量子化: モデルサイズを縮小する技術で、より多くの人がLLMを利用できるようにする次は何か？ Transformerを上回る新しいアーキテクチャの登場と性能向上 Mixtral、Mamba、Striped Hyena などの新モデルが登場

(huggingface.co)

19 ポイント投稿者 xguru 2023-12-21 | 1件のコメント | WhatsAppで共有

大規模言語モデル（LLM）に対する一般の関心が高まり、オープンソースとクローズドソースをめぐる議論が広がった

Pretrained LLMのためのレシピ

モデルアーキテクチャ: 特定の実装と数学的な形式を説明
学習データセット: モデルが学習する例と文書を含む
トークナイザー: テキストを数値に変換する方法を定義
学習ハイパーパラメータ: モデルの学習方法を定義
計算資源と専門家による監視が必要
事前学習済みモデルの重みは推論に使用される

2022年、サイズ競争からデータ競争へ

2022年初頭までは、モデルサイズが性能における重要な要素だった
BLOOM、OPT、GLM-130B などのモデルがリリース
DeepMindの新たな研究によってデータサイズの重要性が強調され、パラダイムシフトが起きた

2023年、オープンリリースの年

小型LLMの台頭: 2月には LLaMA（Meta）、4月には Pythia（Eleuther AI）、5月には MPT（MosaicML）、6月には X-GEN（Salesforce）、Falcon（TIIUAE）、7月には Llama 2（Meta）がリリースされた。9月には Qwen（Alibaba）および Mistral（Mistral.AI）、11月には Yi（01-ai）、12月には DeciLM（Deci）、Phi-2（Microsoft）、SOLAR（Upstage）がリリース
モデル重みが公開されており、小規模なモデルでも優れた性能を示したため、コミュニティで急速に採用された
中核的な違いは学習データとモデルライセンス

対話型モデルの登場

2023年には、ほとんどの事前学習済みモデルが対話型バージョンとともに公開された
チャットベースのファインチューニング、インストラクションチューニング、人間のフィードバックによる強化学習（RLHF）、DPO（Direct Preference Optimzation）などの手法を使用
MPT、Falcon、XGen、Llama-2、Qwen、Yi、DeciLM モデルの対話型バージョンが公開

コミュニティの役割

コミュニティと研究者は、提供されたベースモデルを活用して新しいデータセットとファインチューニング済みモデルを開発
多様なデータセットとファインチューニング戦略が公開
- Human Preference: OpenAIのWebGPTデータセット、HH-RLHFデータセット（Anthropic）、Summarize（OpenAI）
- Instruction: BigScienceによる Public Pool of Prompts、Googleによる FLAN 1 and 2、AllenAIによる Natural Instructions、Self Instruct、SuperNatural instructions、Unnatural instructions
- Human ChatGPT Instruction corpus（HC3）、Alpaca、Vicuna、ShareGPT、Koala、Dolly、UltraChat、UltraLM、Zephyr、OpenHermes2,..

アクセシビリティの大衆化

モデル/データマージ: モデルの重みを結合して強みを統合
PEFT: モデル全体を使わなくてもファインチューニングが可能
量子化: モデルサイズを縮小する技術で、より多くの人がLLMを利用できるようにする

次は何か？

Transformerを上回る新しいアーキテクチャの登場と性能向上
Mixtral、Mamba、Striped Hyena などの新モデルが登場

1件のコメント

laeyoung 2023-12-22

良いオープンソースモデルがたくさん出てきたのは良かったですね。LLaMAもそうですし、Webでも動くように提供してくれるオープンソースモデルもそうですし、あれこれダウンロードしていろいろ試していました。ですが、実際に使っていて日常的に使っているのは、ChatGPT や GPT-4 を持ってきて SaaS として提供しているところだけなので、少し皮肉ではあります。オープンソースモデルも重要ですが、結局は安定して動かしてくれるインフラと、それをまた安定して支えてくれる財政的なスポンサー(?)がなければ難しいのかな、という気がしますね。