- この記事では、BitTorrentに似た仕組みで、ユーザーが自宅で大規模言語モデル(LLM)を実行できるようにする新しい技術 Petals を紹介しています。
- Petalsは、Llama 2 (70B)、Falcon (180B)、BLOOM (176B) など複数のLLMと、その派生製品をサポートしています。
- この技術は、ユーザーのデバイスにモデルの一部を読み込み、残りの部分を提供する他のユーザーのネットワークに接続する方式で動作します。
- Llama 2では毎秒6トークン、Falconでは毎秒4トークンのシングルバッチ推論速度を提供します。この速度はチャットボットや対話型アプリに十分です。
- Petalsは、ユーザーが任意のファインチューニングやサンプリング手法を使ったり、モデルを通じてカスタムパスを実行したり、隠れ状態を確認したりできるようにすることで、従来のLLM APIを超える機能を提供します。
- Petalsは、PyTorch と 🤗 Transformers の柔軟性と、APIの利便性を組み合わせています。
- ユーザーは Google Colab でPetalsを試すことができ、GitHub でドキュメントを確認できます。
- この記事では、プロジェクトへの主要な貢献者を列挙し、GPUを提供できるリンクも案内しています。
- ユーザーは Discord またはメール購読を通じて、Petalsの開発を追うことができます。
- このプロジェクトは BigScience研究ワークショップ の一部です.
1件のコメント
Hacker Newsのコメント