10 ポイント 投稿者 xguru 2023-03-31 | まだコメントはありません。 | WhatsAppで共有
  • LLaMAモデルをベースに構築
    • Supervisedデータ収集
    • Supervisedファインチューニング
    • Rewardモデル学習
    • Reinforcement Learningファインチューニング
  • 含まれる内容
    • オンラインで動作するインタラクティブデモ
    • 7B/13Bモデルを含む完全なRLHF学習コードをオープンソース化
    • 中国語/英語で構成された104kのバイリンガルデータセット
    • 7Bモデルの4-bit量子化。必要なGPUメモリは4GBのみ
    • モデル重みを含み、シングルサーバーで簡単に再現可能
    • 大規模モデル/データセット/最適化なども継続して追加予定

まだコメントはありません。

まだコメントはありません。