Cactus - スマートフォン向け Ollama

(github.com/cactus-compute)

22 ポイント投稿者 xguru 2025-08-05 | まだコメントはありません。 | WhatsAppで共有

スマートフォン、ノートPC、TV、カメラなど、さまざまなデバイスで GGUFモデル を直接実行できる クロスプラットフォームフレームワーク
- Hugging Face、Qwen、Gemma、Llama、DeepSeek などが提供するあらゆる GGUF モデルに対応
- アプリ内で LLM/VLM/TTS モデルを直接配布・実行
Flutter、React Native、Kotlin Multiplatform をサポートし、テキスト、ビジョン、埋め込み、TTSモデル など多様なタイプのモデルをオンデバイスで実行可能
FP32 から 2ビット量子化モデルまで対応し、モバイル環境で高い効率と低消費電力での動作 が可能
チャットテンプレート（Jinja2）、トークンストリーミング、クラウド-ローカル自動フォールバック、Speech-to-Text などをサポート
Cactus のバックエンドは C/C++ で書かれており、モバイル、PC、組み込み、IoT などほぼあらゆる環境で直接動作
最新のスマートフォンでは、Gemma3 1B Q4 は 20〜50トークン/秒、Qwen3 4B Q4 は 7〜18トークン/秒 の速度で動作
HuggingFace Cactus-Compute から推奨モデルをダウンロード可能

活用ポイントと利点

既存のオンデバイス LLM フレームワークと異なり、複数プラットフォームを統合的にサポート しており、ローカル-クラウドのハイブリッドアーキテクチャを実装しやすい
モバイル機器で高性能・低消費電力に最新の LLM/VLM/TTS を活用 可能
アプリやサービス内でのプライベートデータ処理、オフラインAI活用、コスト削減など、さまざまな B2C/B2B シナリオに適している