57 ポイント 投稿者 xguru 2025-10-30 | 5件のコメント | WhatsAppで共有
  • ローカル環境でLLMを完全オフラインで実行するために設計されたツールで、Ollamaより142倍小さい4.8MBの単一バイナリとして提供
  • OpenAI APIと100%互換で、既存のPython、Node.js、VSCode Copilot、Cursor、Continue.devなどの開発ツールをそのまま接続可能
  • インストール直後にすぐ動く**ゼロ設定(Zero-Config)**構成
    • Hugging Face、Ollama、ローカルディレクトリなどから自動でモデルを探索
    • 自動ポート割り当ておよびLoRAアダプター検出機能をサポート
  • **MOE(Mixture of Experts)**ベースのCPU/GPUハイブリッド推論機能により、70B以上の大規模モデルを一般的なPCで実行可能
    • CPUオフロードインテリジェントなレイヤー分配により、VRAMが不足する環境でも安定して実行
    • --cpu-moe--n-cpu-moeオプションで詳細制御が可能
  • GPU高速化のために**CUDA、Vulkan、OpenCL、MLX(Apple Silicon)**など多様なバックエンドをサポート
    • ランタイムで自動検出し、GPU非搭載時はCPUへ自動切り替え
  • Rust + Tokioベースの非同期アーキテクチャにより、高い性能とメモリ安定性を確保
    • llama.cppバックエンドを使用し、GGUFモデルに対応
    • LRUキャッシュ自動ロードバランシングPrometheus統合モニタリングなどを含む
  • セキュリティとプライバシー重視の設計
    • データとコードがローカルの外へ出ない
    • APIキー、料金プラン、トークン課金が不要
  • MITライセンスで永久無料提供: “FREE now, FREE forever”

5件のコメント

 
nextstep 2025-11-01

韓国語、英語、中国語、日本語までテストしてみましたが、ひとまず日本語処理に問題がありますね

 
woung717 2025-11-01

結局バックエンドが llama.cpp なら、dependency free と呼べるのか…

 
tsboard 2025-10-30

わあ、本当にすごいですね。今すぐ試してみないと。

 
kimjoin2 2025-10-30

wow

 
mssmss 2025-10-30

contributor に Claude と Copilot が一緒に載っていますね。