ローカルでLLMを実行する
(abishekmuthian.com)- r/LocalLLaMAサブレディットおよびOllamaブログから、ローカルLLMの実行を始めるうえで役立つ情報を得られる
ハードウェア構成
- Core i9(32スレッド)CPU、4090 GPU(16GB VRAM)、96GB RAMを搭載したLinuxベースのラップトップを使用
- VRAMに収まるモデルは高速に動作し、大きなモデルはRAMへオフロードされるため遅くなることがある
- 高性能なコンピューターは必須ではなく、小さなモデルであれば古いGPUやCPUでも動作可能
使用ツール
- Ollama: Llama.cppを実行するためのPythonおよびJavaScriptライブラリを含むミドルウェア。Dockerで使用
- Open WebUI: テキストと画像入力のための使いやすいインターフェースを提供
- llamafile: 単一の実行ファイルでLLMを実行可能
- AUTOMATIC1111 および Fooocus: 画像生成ツール。複雑なワークフローには ComfyUI を使用
- Continue: VSCodeでコード補完を支援
- Obsidian Smart Connections: Ollamaを使ってメモをクエリする機能を提供
モデル選択
- Ollamaのモデルページから最新のLLMをダウンロード
- RSSでモデル更新を追跡
- CivitAIから画像生成モデルをダウンロード(注意: 一部のモデルは成人向け画像生成に最適化されている)
- 主に使用しているモデル:
- Llama3.2: 一般的なクエリとSmart Connectionsに使用
- Deepseek-coder-v2: VSCodeでのコード補完
- Qwen2.5-coder: コード関連の対話
- Stable Diffusion: 画像生成
更新
- WatchTowerを使ってDockerコンテナを更新
- Open Web UIを通じてモデルを更新
ファインチューニングと量子化
- 現時点ではファインチューニングや量子化は行っていない(CPUの欠陥の可能性があるため、長時間の高温作業を避けている)
結論
- ローカルでLLMを実行すると、データに対する完全な制御と低い応答遅延が得られる
- オープンソースプロジェクトと無料モデルのおかげで、このような運用が可能になっている
- 新しいツールやモデルを使う場合は内容を更新する予定
まだコメントはありません。