24 ポイント 投稿者 xguru 2023-04-20 | 2件のコメント | WhatsAppで共有
  • 3B/7Bモデルを公開。15B/30B/65Bモデルも公開予定で、175Bまで計画中
  • モデルはCC BY-SA-4.0ライセンスで、出典表記時には商用利用可能
  • オープンデータセットのThe Pileに基づいているが、その3倍の規模である1.5Tトークンを持つ新しいデータセットで学習
  • コンテキスト長は4096トークン
  • PoCとして、Alpaca手順に従ってファインチューニングしたStableLM-Tuned-Alpha-7Bモデルも公開
    • 5つの対話型データセットを利用: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
    • チャットボットのデモはHugging Faceで公開

2件のコメント

 
laeyoung 2023-04-20

いいねいいね!

 
xguru 2023-04-20

Stable Diffusionの公開で市場の加速が起きたように、言語モデルでも今後は公開利用可能なデータやユースケースが次々と出てきそうですね。