- 高価なNVIDIA GPUは忘れて、手元のiPhone、iPad、Android、Mac、Linux などの既存デバイスを束ねて、1つの強力なGPUのように活用
- LLaMA およびさまざまなモデルをサポート
- 「動的モデル分割」により、現在のネットワークトポロジーと利用可能なデバイスリソースに基づいてモデルを最適に分割
- 単一デバイスで実行できるよりも大規模なモデルを実行可能
- 自動デバイスディスカバリーで他のデバイスを検出
- ChatGPT互換APIを提供
- 各デバイスはMaster-Worker構成ではなく、p2p方式で接続(デフォルトの分割戦略はリングメモリ重み分割)
- 推論エンジンをサポート:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- ネットワーキングモジュールをサポート:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- 既知の問題
- ライブラリが急速に進化しているため、iOS実装がPythonより遅れている
- 長期的には、個別実装を維持する必要がないよう統合アプローチを進める予定
GN⁺のまとめ
- exoは、さまざまなデバイスを1つの強力なAIクラスターに統合できる実験的ソフトウェア
- 自動デバイス検出や動的モデル分割などの機能により、単一デバイスより大きなモデルを実行できる
- ChatGPT互換APIを提供し、手軽にモデルを実行できる
- iOS実装の遅れという課題を解決するため、統合アプローチを推進中
1件のコメント
Hacker Newsの意見
mlxが必要。「iPhone, iPad, Android, Mac, Linux, pretty much any device」で動作するとしているが、実際にテストされたことがあるのか疑わしいpaddlerをWindowsで2台のデバイス間のロードバランシング用に動かしたことがある。Llama 400Bを複数デバイスで動かすのに役立ちそうだ。だが、まだWindowsサポートはない