19 ポイント 投稿者 xguru 2023-12-21 | 1件のコメント | WhatsAppで共有
  • 大規模言語モデル(LLM)に対する一般の関心が高まり、オープンソースとクローズドソースをめぐる議論が広がった

Pretrained LLMのためのレシピ

  • モデルアーキテクチャ: 特定の実装と数学的な形式を説明
  • 学習データセット: モデルが学習する例と文書を含む
  • トークナイザー: テキストを数値に変換する方法を定義
  • 学習ハイパーパラメータ: モデルの学習方法を定義
  • 計算資源と専門家による監視が必要
  • 事前学習済みモデルの重みは推論に使用される

2022年、サイズ競争からデータ競争へ

  • 2022年初頭までは、モデルサイズが性能における重要な要素だった
  • BLOOM、OPT、GLM-130B などのモデルがリリース
  • DeepMindの新たな研究によってデータサイズの重要性が強調され、パラダイムシフトが起きた

2023年、オープンリリースの年

  • 小型LLMの台頭: 2月には LLaMA(Meta)、4月には Pythia(Eleuther AI)、5月には MPT(MosaicML)、6月には X-GEN(Salesforce)、Falcon(TIIUAE)、7月には Llama 2(Meta)がリリースされた。9月には Qwen(Alibaba)および Mistral(Mistral.AI)、11月には Yi(01-ai)、12月には DeciLM(Deci)、Phi-2(Microsoft)、SOLAR(Upstage)がリリース
  • モデル重みが公開されており、小規模なモデルでも優れた性能を示したため、コミュニティで急速に採用された
  • 中核的な違いは学習データとモデルライセンス

対話型モデルの登場

  • 2023年には、ほとんどの事前学習済みモデルが対話型バージョンとともに公開された
  • チャットベースのファインチューニング、インストラクションチューニング、人間のフィードバックによる強化学習(RLHF)、DPO(Direct Preference Optimzation)などの手法を使用
  • MPT、Falcon、XGen、Llama-2、Qwen、Yi、DeciLM モデルの対話型バージョンが公開

コミュニティの役割

  • コミュニティと研究者は、提供されたベースモデルを活用して新しいデータセットとファインチューニング済みモデルを開発
  • 多様なデータセットとファインチューニング戦略が公開
    • Human Preference: OpenAIのWebGPTデータセット、HH-RLHFデータセット(Anthropic)、Summarize(OpenAI)
    • Instruction: BigScienceによる Public Pool of Prompts、Googleによる FLAN 1 and 2、AllenAIによる Natural Instructions、Self Instruct、SuperNatural instructions、Unnatural instructions
    • Human ChatGPT Instruction corpus(HC3)、Alpaca、Vicuna、ShareGPT、Koala、Dolly、UltraChat、UltraLM、Zephyr、OpenHermes2,..

アクセシビリティの大衆化

  • モデル/データマージ: モデルの重みを結合して強みを統合
  • PEFT: モデル全体を使わなくてもファインチューニングが可能
  • 量子化: モデルサイズを縮小する技術で、より多くの人がLLMを利用できるようにする

次は何か?

  • Transformerを上回る新しいアーキテクチャの登場と性能向上
  • Mixtral、Mamba、Striped Hyena などの新モデルが登場

1件のコメント

 
laeyoung 2023-12-22

良いオープンソースモデルがたくさん出てきたのは良かったですね。LLaMAもそうですし、Webでも動くように提供してくれるオープンソースモデルもそうですし、あれこれダウンロードしていろいろ試していました。ですが、実際に使っていて日常的に使っているのは、ChatGPT や GPT-4 を持ってきて SaaS として提供しているところだけなので、少し皮肉ではあります。オープンソースモデルも重要ですが、結局は安定して動かしてくれるインフラと、それをまた安定して支えてくれる財政的なスポンサー(?)がなければ難しいのかな、という気がしますね。