- 大規模言語モデル(LLM)に対する一般の関心が高まり、オープンソースとクローズドソースをめぐる議論が広がった
Pretrained LLMのためのレシピ
- モデルアーキテクチャ: 特定の実装と数学的な形式を説明
- 学習データセット: モデルが学習する例と文書を含む
- トークナイザー: テキストを数値に変換する方法を定義
- 学習ハイパーパラメータ: モデルの学習方法を定義
- 計算資源と専門家による監視が必要
- 事前学習済みモデルの重みは推論に使用される
2022年、サイズ競争からデータ競争へ
- 2022年初頭までは、モデルサイズが性能における重要な要素だった
- BLOOM、OPT、GLM-130B などのモデルがリリース
- DeepMindの新たな研究によってデータサイズの重要性が強調され、パラダイムシフトが起きた
2023年、オープンリリースの年
- 小型LLMの台頭: 2月には LLaMA(Meta)、4月には Pythia(Eleuther AI)、5月には MPT(MosaicML)、6月には X-GEN(Salesforce)、Falcon(TIIUAE)、7月には Llama 2(Meta)がリリースされた。9月には Qwen(Alibaba)および Mistral(Mistral.AI)、11月には Yi(01-ai)、12月には DeciLM(Deci)、Phi-2(Microsoft)、SOLAR(Upstage)がリリース
- モデル重みが公開されており、小規模なモデルでも優れた性能を示したため、コミュニティで急速に採用された
- 中核的な違いは学習データとモデルライセンス
対話型モデルの登場
- 2023年には、ほとんどの事前学習済みモデルが対話型バージョンとともに公開された
- チャットベースのファインチューニング、インストラクションチューニング、人間のフィードバックによる強化学習(RLHF)、DPO(Direct Preference Optimzation)などの手法を使用
- MPT、Falcon、XGen、Llama-2、Qwen、Yi、DeciLM モデルの対話型バージョンが公開
コミュニティの役割
- コミュニティと研究者は、提供されたベースモデルを活用して新しいデータセットとファインチューニング済みモデルを開発
- 多様なデータセットとファインチューニング戦略が公開
- Human Preference: OpenAIのWebGPTデータセット、HH-RLHFデータセット(Anthropic)、Summarize(OpenAI)
- Instruction: BigScienceによる Public Pool of Prompts、Googleによる FLAN 1 and 2、AllenAIによる Natural Instructions、Self Instruct、SuperNatural instructions、Unnatural instructions
- Human ChatGPT Instruction corpus(HC3)、Alpaca、Vicuna、ShareGPT、Koala、Dolly、UltraChat、UltraLM、Zephyr、OpenHermes2,..
アクセシビリティの大衆化
- モデル/データマージ: モデルの重みを結合して強みを統合
- PEFT: モデル全体を使わなくてもファインチューニングが可能
- 量子化: モデルサイズを縮小する技術で、より多くの人がLLMを利用できるようにする
次は何か?
- Transformerを上回る新しいアーキテクチャの登場と性能向上
- Mixtral、Mamba、Striped Hyena などの新モデルが登場
1件のコメント
良いオープンソースモデルがたくさん出てきたのは良かったですね。LLaMAもそうですし、Webでも動くように提供してくれるオープンソースモデルもそうですし、あれこれダウンロードしていろいろ試していました。ですが、実際に使っていて日常的に使っているのは、ChatGPT や GPT-4 を持ってきて SaaS として提供しているところだけなので、少し皮肉ではあります。オープンソースモデルも重要ですが、結局は安定して動かしてくれるインフラと、それをまた安定して支えてくれる財政的なスポンサー(?)がなければ難しいのかな、という気がしますね。