Shimmy - Ollamaの代替になり得る、個人プライバシー重視の軽量OpenAI APIサーバー
(github.com/Michael-A-Kuykendall)- ローカル環境でLLMを完全オフラインで実行するために設計されたツールで、Ollamaより142倍小さい4.8MBの単一バイナリとして提供
- OpenAI APIと100%互換で、既存のPython、Node.js、VSCode Copilot、Cursor、Continue.devなどの開発ツールをそのまま接続可能
- インストール直後にすぐ動く**ゼロ設定(Zero-Config)**構成
- Hugging Face、Ollama、ローカルディレクトリなどから自動でモデルを探索
- 自動ポート割り当ておよびLoRAアダプター検出機能をサポート
- **MOE(Mixture of Experts)**ベースのCPU/GPUハイブリッド推論機能により、70B以上の大規模モデルを一般的なPCで実行可能
- CPUオフロードとインテリジェントなレイヤー分配により、VRAMが不足する環境でも安定して実行
--cpu-moe、--n-cpu-moeオプションで詳細制御が可能
- GPU高速化のために**CUDA、Vulkan、OpenCL、MLX(Apple Silicon)**など多様なバックエンドをサポート
- ランタイムで自動検出し、GPU非搭載時はCPUへ自動切り替え
- Rust + Tokioベースの非同期アーキテクチャにより、高い性能とメモリ安定性を確保
- llama.cppバックエンドを使用し、GGUFモデルに対応
- LRUキャッシュ、自動ロードバランシング、Prometheus統合モニタリングなどを含む
- セキュリティとプライバシー重視の設計
- データとコードがローカルの外へ出ない
- APIキー、料金プラン、トークン課金が不要
- MITライセンスで永久無料提供: “FREE now, FREE forever”
5件のコメント
韓国語、英語、中国語、日本語までテストしてみましたが、ひとまず日本語処理に問題がありますね
結局バックエンドが
llama.cppなら、dependency free と呼べるのか…わあ、本当にすごいですね。今すぐ試してみないと。
wow
contributor に Claude と Copilot が一緒に載っていますね。