whichllm - 自分のハードウェアで実際に動作し、最高性能を出せるローカルLLMを見つける

xguru · 2026-05-18T10:06:01+09:00

パラメータ数ではなく実測ベンチマークベースで、ユーザーのハードウェアに合ったローカルLLMを自動推薦するCLIツール GPU/CPU/RAMを自動検出し、HuggingFaceモデルの中からシステムに合う上位モデルをランキングで提示 NVIDIA、AMD、Apple Silicon、CPU-onlyをすべてサポート VRAMに収まる最大モデルではなく、その中で実際に最も優れたモデルを選ぶことが中核目標例: RTX 4090をシミュレーションした場合、32Bモデルが入っても、新世代の27Bモデル（Qwen3.6-27B）を1位として推薦複数ベンチマークの統合スコアリング: LiveBench、Artificial Analysis、Aider、multimodal/vision、Chatbot Arena ELO、Open LLM Leaderboardを統合して0–100のスコアを算出最新モデル認識（Recency-aware）: 古いリーダーボードはモデル系譜に沿って減点し、2024年のモデルが旧版スコアで現世代モデルを追い越せないように制御根拠の5段階評価 - direct / variant / base_model / line_interp / self_reported でタグ付けし、信頼度に応じて割引アップローダーによる虚偽の自己申告や、小さなフォークが大きなベースモデルのスコアを借りるクロスファミリー継承も防止パラメータ数がファミリーの主要メンバーと2倍以上違う場合は継承を拒否アーキテクチャ認識型のVRAM/速度推定 - VRAMは重み + GQA KVキャッシュ + 活性化 + オーバーヘッド、速度は帯域幅ボトルネックに加え、MoEのactiveとtotalの分離、統合メモリとPCIe部分オフロードを反映 whichllm run の1行で、モデルのダウンロードからチャットまで即実行できるワンコマンドワークフローをサポート uv で隔離環境の作成、依存関係のインストール、モデルのダウンロード、対話型チャットまで自動処理 GGUF / AWQ / GPTQ / FP16 / BF16の全フォーマットに対応ハードウェア計画コマンド whichllm --gpu "RTX 5090" - 任意のGPUをシミュレーションして購入前に確認 whichllm plan "llama 3 70b" - 特定モデルに必要なGPUを逆引き whichllm upgrade "RTX 4090" "RTX 5090" "H100" - 現在のマシンと候補GPUを比較 Ollama連携: whichllm --top 1 --json | jq -r '.models[0].model_id' の形でパイプラインを構成可能コードスニペット出力: whichllm snippet "qwen 7b" で llama_cpp.Llama.from_pretrained の呼び出しからチャット完了まで、コピー＆ペースト可能なPythonコードを提供 MITライセンス

(github.com/Andyyyy64)

71 ポイント投稿者 xguru 2026-05-18 | 3件のコメント | WhatsAppで共有

パラメータ数ではなく実測ベンチマークベースで、ユーザーのハードウェアに合ったローカルLLMを自動推薦するCLIツール
GPU/CPU/RAMを自動検出し、HuggingFaceモデルの中からシステムに合う上位モデルをランキングで提示
- NVIDIA、AMD、Apple Silicon、CPU-onlyをすべてサポート
VRAMに収まる最大モデルではなく、その中で実際に最も優れたモデルを選ぶことが中核目標
- 例: RTX 4090をシミュレーションした場合、32Bモデルが入っても、新世代の27Bモデル（Qwen3.6-27B）を1位として推薦
複数ベンチマークの統合スコアリング: LiveBench、Artificial Analysis、Aider、multimodal/vision、Chatbot Arena ELO、Open LLM Leaderboardを統合して0–100のスコアを算出
最新モデル認識（Recency-aware）: 古いリーダーボードはモデル系譜に沿って減点し、2024年のモデルが旧版スコアで現世代モデルを追い越せないように制御
根拠の5段階評価 - direct / variant / base_model / line_interp / self_reported でタグ付けし、信頼度に応じて割引
- アップローダーによる虚偽の自己申告や、小さなフォークが大きなベースモデルのスコアを借りるクロスファミリー継承も防止
- パラメータ数がファミリーの主要メンバーと2倍以上違う場合は継承を拒否
アーキテクチャ認識型のVRAM/速度推定 - VRAMは重み + GQA KVキャッシュ + 活性化 + オーバーヘッド、速度は帯域幅ボトルネックに加え、MoEのactiveとtotalの分離、統合メモリとPCIe部分オフロードを反映
whichllm run の1行で、モデルのダウンロードからチャットまで即実行できるワンコマンドワークフローをサポート
- uv で隔離環境の作成、依存関係のインストール、モデルのダウンロード、対話型チャットまで自動処理
- GGUF / AWQ / GPTQ / FP16 / BF16の全フォーマットに対応
ハードウェア計画コマンド
- whichllm --gpu "RTX 5090" - 任意のGPUをシミュレーションして購入前に確認
- whichllm plan "llama 3 70b" - 特定モデルに必要なGPUを逆引き
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - 現在のマシンと候補GPUを比較
Ollama連携: whichllm --top 1 --json | jq -r '.models[0].model_id' の形でパイプラインを構成可能
コードスニペット出力: whichllm snippet "qwen 7b" で llama_cpp.Llama.from_pretrained の呼び出しからチャット完了まで、コピー＆ペースト可能なPythonコードを提供
MITライセンス

3件のコメント

xguru 2026-05-18

私はこんなふうに5つをおすすめしますね。3つがQwenですね。

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 29 일 전

私は https://www.canirun.ai/ のサイトを使っていましたが、一度使ってみるべきですね。

popopo 2026-05-18

╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — shared memory — BW: 256 GB/s         │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cores (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk free: 174.1 GB                                                                                                        │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               推奨モデル  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴━━━━━━━━━━━━┴━━━━━━━━━━━┴━━━━━━━┴━━━━━━━━━━┘  
  最有力候補の信頼度: 高い (直接ベンチマーク、差 +2.9)  
  ベンチマーク参照: 2026-05 キュレーション済みスナップショット。到達可能な場合は live AA / LiveBench / Aider を統合。

whichllm - 自分のハードウェアで実際に動作し、最高性能を出せるローカルLLMを見つける

関連記事

3件のコメント