Exo - 家庭用デバイスで自分だけのAIクラスターを運用する

(github.com/exo-explore)

21 ポイント投稿者 GN⁺ 2024-07-17 | 1件のコメント | WhatsAppで共有

高価なNVIDIA GPUは忘れて、手元のiPhone、iPad、Android、Mac、Linux などの既存デバイスを束ねて、1つの強力なGPUのように活用
LLaMA およびさまざまなモデルをサポート
「動的モデル分割」により、現在のネットワークトポロジーと利用可能なデバイスリソースに基づいてモデルを最適に分割
- 単一デバイスで実行できるよりも大規模なモデルを実行可能
自動デバイスディスカバリーで他のデバイスを検出
ChatGPT互換APIを提供
各デバイスはMaster-Worker構成ではなく、p2p方式で接続（デフォルトの分割戦略はリングメモリ重み分割）
推論エンジンをサポート:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
ネットワーキングモジュールをサポート:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
既知の問題
- ライブラリが急速に進化しているため、iOS実装がPythonより遅れている
- 長期的には、個別実装を維持する必要がないよう統合アプローチを進める予定

GN⁺のまとめ

exoは、さまざまなデバイスを1つの強力なAIクラスターに統合できる実験的ソフトウェア
自動デバイス検出や動的モデル分割などの機能により、単一デバイスより大きなモデルを実行できる
ChatGPT互換APIを提供し、手軽にモデルを実行できる
iOS実装の遅れという課題を解決するため、統合アプローチを推進中

1件のコメント

GN⁺ 2024-07-17

Hacker Newsの意見

Apple Silicon専用ライブラリのmlxが必要。「iPhone, iPad, Android, Mac, Linux, pretty much any device」で動作するとしているが、実際にテストされたことがあるのか疑わしい
ローカルネットワーク向けに最適化されたこのシステムを、クラウドソーシングで簡単に使える方法について考えている。オフィス内の全員が簡単にネットワークに参加したり、QRコードをスキャンしてドメイン特化モデルに貢献できる方法を探している
このアイデアは素晴らしく、ユーザーフレンドリーだ。複数の古いデバイスを有用なものに変えられる可能性がある。ただ、tok、レイテンシ、およびサンプル設定に関する結果を示してほしい
GitHubのpaddlerをWindowsで2台のデバイス間のロードバランシング用に動かしたことがある。Llama 400Bを複数デバイスで動かすのに役立ちそうだ。だが、まだWindowsサポートはない
この機能により、単一デバイスで実行できるよりも大きなモデルを動かせるようになる。しかし、具体的にどう動くのかの説明が不足している。たとえば、ニューラルネットワークの一部のレイヤーがdeviceAにあり、別のレイヤーがdeviceBにあるなら、トークンが生成されるたびにdeviceAの最後のレイヤーの出力データをdeviceBへ送る必要がある
Swarmコンピューティングは、あらゆるコンピューティングの標準になるべきだ。私たちが所有するあらゆるデバイスには、使われていないCPUがあまりにも多い
ネットワークのボトルネックのせいで動かないだろう。ギガバイト単位のデータを転送しなければならない。だから良いインターネット（20mb/s以上）と良いデバイスが必要だ。このシステムはTwitterでのかっこいいデモで終わるだろう。間違っていることを証明してほしい
クラウドは計算能力/価格の面では勝てないが、ローカルに移せばプライバシー問題は解決できる。世界にはコンピューティングに対する第二修正が必要だ
以前はMacやPCなどでローカルにモデルを動かすことに興味を持っていた。だが今では、有用なAIコンピューティングのほとんどはクラウドで行われるようになると思っている。家庭内ネットワークで低速なLlama3モデルを動かすことはできるが、クラウドサービスで安価または無料で動かせるのだから、わざわざそうする必要はない。AppleはローカルAIモデルを推進しているが、バッテリー性能への影響について深刻な懸念がある
大規模クラスターはRDMAネットワークを使っていても通信オーバーヘッドがボトルネックだと報告しているのに、このシステムが家庭内ネットワークで大規模なボトルネックに悩まされないのがどうして可能なのか不思議だ

Exo - 家庭用デバイスで自分だけのAIクラスターを運用する

GN⁺のまとめ

関連記事

1件のコメント

Hacker Newsの意見