2 ポイント 投稿者 GN⁺ 2023-09-18 | 1件のコメント | WhatsAppで共有
  • この記事では、BitTorrentに似た仕組みで、ユーザーが自宅で大規模言語モデル(LLM)を実行できるようにする新しい技術 Petals を紹介しています。
  • Petalsは、Llama 2 (70B)、Falcon (180B)、BLOOM (176B) など複数のLLMと、その派生製品をサポートしています。
  • この技術は、ユーザーのデバイスにモデルの一部を読み込み、残りの部分を提供する他のユーザーのネットワークに接続する方式で動作します。
  • Llama 2では毎秒6トークンFalconでは毎秒4トークンのシングルバッチ推論速度を提供します。この速度はチャットボットや対話型アプリに十分です。
  • Petalsは、ユーザーが任意のファインチューニングやサンプリング手法を使ったり、モデルを通じてカスタムパスを実行したり、隠れ状態を確認したりできるようにすることで、従来のLLM APIを超える機能を提供します。
  • Petalsは、PyTorch🤗 Transformers の柔軟性と、APIの利便性を組み合わせています。
  • ユーザーは Google Colab でPetalsを試すことができ、GitHub でドキュメントを確認できます。
  • この記事では、プロジェクトへの主要な貢献者を列挙し、GPUを提供できるリンクも案内しています。
  • ユーザーは Discord またはメール購読を通じて、Petalsの開発を追うことができます。
  • このプロジェクトは BigScience研究ワークショップ の一部です.

1件のコメント

 
GN⁺ 2023-09-18
Hacker Newsのコメント
  • BitTorrentに似た方式で、大規模言語モデル(LLM)を家庭で動かす新しい方法に関する記事
  • モデルの重みを複数のマシンにまたがって層ごとに分割し、協調して推論または微調整を行う
  • Ollamaというプロジェクトが開発中で、Dockerレジストリにモデルの重みをホスティングし、毎回正しい重みがダウンロードされることを保証する
  • 量子化/QLORAの利用により、大規模モデルをコンシューマー向けハードウェア上で許容可能な速度で実行でき、サーバー間並列化によるレイテンシも回避できる
  • 70Bのような大規模モデルの微調整は困難で高価なリソースを必要とし、「llama training horde」のような集団的貢献案が提案されている
  • システムの脆弱性に対する懸念があり、悪意ある参加者が出力を改変したり、無意味な結果を返したりしてシステムを妨害する可能性がある
  • プロジェクトの一部であるPetalsは、ユーザーがGPUを共有し、コードを貢献できるようにしており、一般的なコーディング体験を提供する
  • システムは分配されたトークンを一定数提供できるため、低スペックなデバイスのユーザーに利点をもたらす可能性がある
  • このプロジェクトはゲームチェンジャーになり得ると見られており、この分野のより多くの開発者にアクセシビリティを提供する
  • PetalsはAI Hordeのkudosに似た中央集権的なインセンティブシステムを運用している一方で、その他の面では分散システムである。インセンティブは金銭に交換できず、システム内で使うことを意図している
  • 一部のユーザーはGPUを共有しようとした際に依存関係のバージョン問題に直面している
  • GPUサイクルのために「トークン」を使う案や、太陽光PVエネルギーの利用を最大化するために太陽を追いかけるというアイデアも示されている