whichllm - 自分のハードウェアで実際に動作し、最高性能を出せるローカルLLMを見つける
(github.com/Andyyyy64)- パラメータ数ではなく実測ベンチマークベースで、ユーザーのハードウェアに合ったローカルLLMを自動推薦するCLIツール
- GPU/CPU/RAMを自動検出し、HuggingFaceモデルの中からシステムに合う上位モデルをランキングで提示
- NVIDIA、AMD、Apple Silicon、CPU-onlyをすべてサポート
- VRAMに収まる最大モデルではなく、その中で実際に最も優れたモデルを選ぶことが中核目標
- 例: RTX 4090をシミュレーションした場合、32Bモデルが入っても、新世代の27Bモデル(Qwen3.6-27B)を1位として推薦
- 複数ベンチマークの統合スコアリング: LiveBench、Artificial Analysis、Aider、multimodal/vision、Chatbot Arena ELO、Open LLM Leaderboardを統合して0–100のスコアを算出
- 最新モデル認識(Recency-aware): 古いリーダーボードはモデル系譜に沿って減点し、2024年のモデルが旧版スコアで現世代モデルを追い越せないように制御
- 根拠の5段階評価 -
direct/variant/base_model/line_interp/self_reportedでタグ付けし、信頼度に応じて割引- アップローダーによる虚偽の自己申告や、小さなフォークが大きなベースモデルのスコアを借りるクロスファミリー継承も防止
- パラメータ数がファミリーの主要メンバーと2倍以上違う場合は継承を拒否
- アーキテクチャ認識型のVRAM/速度推定 - VRAMは重み + GQA KVキャッシュ + 活性化 + オーバーヘッド、速度は帯域幅ボトルネックに加え、MoEのactiveとtotalの分離、統合メモリとPCIe部分オフロードを反映
whichllm runの1行で、モデルのダウンロードからチャットまで即実行できるワンコマンドワークフローをサポートuvで隔離環境の作成、依存関係のインストール、モデルのダウンロード、対話型チャットまで自動処理- GGUF / AWQ / GPTQ / FP16 / BF16の全フォーマットに対応
- ハードウェア計画コマンド
whichllm --gpu "RTX 5090"- 任意のGPUをシミュレーションして購入前に確認whichllm plan "llama 3 70b"- 特定モデルに必要なGPUを逆引きwhichllm upgrade "RTX 4090" "RTX 5090" "H100"- 現在のマシンと候補GPUを比較
- Ollama連携:
whichllm --top 1 --json | jq -r '.models[0].model_id'の形でパイプラインを構成可能 - コードスニペット出力:
whichllm snippet "qwen 7b"でllama_cpp.Llama.from_pretrainedの呼び出しからチャット完了まで、コピー&ペースト可能なPythonコードを提供 - MITライセンス
1件のコメント
私はこんなふうに5つをおすすめしますね。3つがQwenですね。
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B