Petals - 100B超の言語モデルを自宅でBitTorrentスタイルで動かす
(github.com/bigscience-workshop)- BLOOM-176B のような超巨大言語モデルを「共同で」実行
- 自分のGPUをPetalsに接続
- 各自がモデルの一部をロードし、他の人たちと一緒に推論および微調整を実行
- 推論は1ステップ(トークン)あたり約1秒で、オフロードより10倍高速なため、チャットボットやその他の対話型アプリに十分
- 並列推論では毎秒数百トークンが可能
- GPU時間を提供する人への明示的なインセンティブ(Bloom Points)の導入を進行中
3件のコメント
いいね!!
えっ、この記事じゃないのに…
かなり小さいBLOOM-7B版でも、ローカルで直接動かすと Ryzen(16コア)+ 32GB RAM で90秒ほどかかるそうです。
主張どおりにうまく動くならかなり良さそうですが……どこかブロックチェーンっぽい感じが……
(開発者いわく、ブロックチェーンは使っていないそうです)