5 ポイント 投稿者 GN⁺ 2023-07-19 | 1件のコメント | WhatsAppで共有
  • 研究および商用利用の両方が可能なオープンソース大規模言語モデル
  • Llama 1 と比べて 40% 多い 2 兆トークンのデータで学習
  • 2 倍のコンテキスト長: 4096
  • 3 つのサイズのモデル: 7B、13B、70B
  • 推論、コーディング、熟練度、知識テストなど多くのベンチマークで、他のオープンソース言語モデルより優れた性能(MPT、Falcon、Llama-1)
  • 公開されたデータソースで学習されており、ファインチューニングされた Llama-2-chat も公開された命令セットと 100 万件を超える人手による注釈を活用
    • Reinforcement Learning from Human Feedback (RLHF) を利用。Rejection Sampling および Proximal policy optimization (PPO) を含む
  • ダウンロードに含まれるもの
    • Model code
    • Model Weights
    • README (User Guide)
    • Responsible Use Guide
    • License
    • Acceptable Use Policy
    • Model Card

1件のコメント

 
GN⁺ 2023-07-19
Hacker Newsの意見
  • Llama 2 は特定のベンチマークで GPT-3.5 を上回り、肩を並べつつある
  • Llama 2 は AI2 Reasoning Challenge、HellaSwag、MMLU テストで優れた性能を示している
  • Llama 2 は GPT-3.5 に近い性能を持ちながら、パラメータ数はより少ない
  • Llama 2 は簡単にテストでき、アプリに追加することもできる
  • Llama 2 は、一部のユーザーが批判している非公開ライセンスを採用している
  • Llama 2 は、さまざまなツールやプラットフォームを通じて利用できる
  • Llama 2 には、一部のケースでは回避可能なガードレールがある
  • Llama 2 の公開は、業界にとって有益な前向きな動きと見なされている
  • Llama 2 の 2T トークンでの学習は、Llama 1 と比べて性能を向上させた
  • Llama モデルのスケーリングは、コンシューマー向け GPU 上で強力なモデルを実現できる可能性がある