17 ポイント 投稿者 xguru 3 시간 전 | 1件のコメント | WhatsAppで共有
  • パラメータ数ではなく実測ベンチマークベースで、ユーザーのハードウェアに合ったローカルLLMを自動推薦するCLIツール
  • GPU/CPU/RAMを自動検出し、HuggingFaceモデルの中からシステムに合う上位モデルをランキングで提示
    • NVIDIA、AMD、Apple Silicon、CPU-onlyをすべてサポート
  • VRAMに収まる最大モデルではなく、その中で実際に最も優れたモデルを選ぶことが中核目標
    • 例: RTX 4090をシミュレーションした場合、32Bモデルが入っても、新世代の27Bモデル(Qwen3.6-27B)を1位として推薦
  • 複数ベンチマークの統合スコアリング: LiveBench、Artificial Analysis、Aider、multimodal/vision、Chatbot Arena ELO、Open LLM Leaderboardを統合して0–100のスコアを算出
  • 最新モデル認識(Recency-aware): 古いリーダーボードはモデル系譜に沿って減点し、2024年のモデルが旧版スコアで現世代モデルを追い越せないように制御
  • 根拠の5段階評価 - direct / variant / base_model / line_interp / self_reported でタグ付けし、信頼度に応じて割引
    • アップローダーによる虚偽の自己申告や、小さなフォークが大きなベースモデルのスコアを借りるクロスファミリー継承も防止
    • パラメータ数がファミリーの主要メンバーと2倍以上違う場合は継承を拒否
  • アーキテクチャ認識型のVRAM/速度推定 - VRAMは重み + GQA KVキャッシュ + 活性化 + オーバーヘッド、速度は帯域幅ボトルネックに加え、MoEのactiveとtotalの分離、統合メモリとPCIe部分オフロードを反映
  • whichllm run の1行で、モデルのダウンロードからチャットまで即実行できるワンコマンドワークフローをサポート
    • uv で隔離環境の作成、依存関係のインストール、モデルのダウンロード、対話型チャットまで自動処理
    • GGUF / AWQ / GPTQ / FP16 / BF16の全フォーマットに対応
  • ハードウェア計画コマンド
    • whichllm --gpu "RTX 5090" - 任意のGPUをシミュレーションして購入前に確認
    • whichllm plan "llama 3 70b" - 特定モデルに必要なGPUを逆引き
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - 現在のマシンと候補GPUを比較
  • Ollama連携: whichllm --top 1 --json | jq -r '.models[0].model_id' の形でパイプラインを構成可能
  • コードスニペット出力: whichllm snippet "qwen 7b"llama_cpp.Llama.from_pretrained の呼び出しからチャット完了まで、コピー&ペースト可能なPythonコードを提供
  • MITライセンス

1件のコメント

 
xguru 3 시간 전

私はこんなふうに5つをおすすめしますね。3つがQwenですね。

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B