Shimmy - Ollamaの代替になり得る、個人プライバシー重視の軽量OpenAI APIサーバー

xguru · 2025-10-30T09:31:02+09:00

ローカル環境でLLMを完全オフラインで実行するために設計されたツールで、Ollamaより142倍小さい4.8MBの単一バイナリとして提供 OpenAI APIと100%互換で、既存のPython、Node.js、VSCode Copilot、Cursor、Continue.devなどの開発ツールをそのまま接続可能インストール直後にすぐ動く**ゼロ設定（Zero-Config）**構成 Hugging Face、Ollama、ローカルディレクトリなどから自動でモデルを探索自動ポート割り当ておよびLoRAアダプター検出機能をサポート **MOE(Mixture of Experts)**ベースのCPU/GPUハイブリッド推論機能により、70B以上の大規模モデルを一般的なPCで実行可能 CPUオフロードとインテリジェントなレイヤー分配により、VRAMが不足する環境でも安定して実行 --cpu-moe、--n-cpu-moeオプションで詳細制御が可能 GPU高速化のために**CUDA、Vulkan、OpenCL、MLX(Apple Silicon)**など多様なバックエンドをサポートランタイムで自動検出し、GPU非搭載時はCPUへ自動切り替え Rust + Tokioベースの非同期アーキテクチャにより、高い性能とメモリ安定性を確保 llama.cppバックエンドを使用し、GGUFモデルに対応 LRUキャッシュ、自動ロードバランシング、Prometheus統合モニタリングなどを含むセキュリティとプライバシー重視の設計データとコードがローカルの外へ出ない APIキー、料金プラン、トークン課金が不要 MITライセンスで永久無料提供: “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 ポイント投稿者 xguru 2025-10-30 | 5件のコメント | WhatsAppで共有

ローカル環境でLLMを完全オフラインで実行するために設計されたツールで、Ollamaより142倍小さい4.8MBの単一バイナリとして提供
OpenAI APIと100%互換で、既存のPython、Node.js、VSCode Copilot、Cursor、Continue.devなどの開発ツールをそのまま接続可能
インストール直後にすぐ動く**ゼロ設定（Zero-Config）**構成
- Hugging Face、Ollama、ローカルディレクトリなどから自動でモデルを探索
- 自動ポート割り当ておよびLoRAアダプター検出機能をサポート
**MOE(Mixture of Experts)**ベースのCPU/GPUハイブリッド推論機能により、70B以上の大規模モデルを一般的なPCで実行可能
- CPUオフロードとインテリジェントなレイヤー分配により、VRAMが不足する環境でも安定して実行
- --cpu-moe、--n-cpu-moeオプションで詳細制御が可能
GPU高速化のために**CUDA、Vulkan、OpenCL、MLX(Apple Silicon)**など多様なバックエンドをサポート
- ランタイムで自動検出し、GPU非搭載時はCPUへ自動切り替え
Rust + Tokioベースの非同期アーキテクチャにより、高い性能とメモリ安定性を確保
- llama.cppバックエンドを使用し、GGUFモデルに対応
- LRUキャッシュ、自動ロードバランシング、Prometheus統合モニタリングなどを含む
セキュリティとプライバシー重視の設計
- データとコードがローカルの外へ出ない
- APIキー、料金プラン、トークン課金が不要
MITライセンスで永久無料提供: “FREE now, FREE forever”

5件のコメント

nextstep 2025-11-01

韓国語、英語、中国語、日本語までテストしてみましたが、ひとまず日本語処理に問題がありますね

woung717 2025-11-01

結局バックエンドが llama.cpp なら、dependency free と呼べるのか…

tsboard 2025-10-30

わあ、本当にすごいですね。今すぐ試してみないと。

kimjoin2 2025-10-30

wow

mssmss 2025-10-30

contributor に Claude と Copilot が一緒に載っていますね。

Shimmy - Ollamaの代替になり得る、個人プライバシー重視の軽量OpenAI APIサーバー

関連記事

5件のコメント