ローカルでLLMを実行する

(abishekmuthian.com)

27 ポイント投稿者 GN⁺ 2024-12-30 | まだコメントはありません。 | WhatsAppで共有

r/LocalLLaMAサブレディットおよびOllamaブログから、ローカルLLMの実行を始めるうえで役立つ情報を得られる

ハードウェア構成

Core i9（32スレッド）CPU、4090 GPU（16GB VRAM）、96GB RAMを搭載したLinuxベースのラップトップを使用
VRAMに収まるモデルは高速に動作し、大きなモデルはRAMへオフロードされるため遅くなることがある
高性能なコンピューターは必須ではなく、小さなモデルであれば古いGPUやCPUでも動作可能

使用ツール

Ollama: Llama.cppを実行するためのPythonおよびJavaScriptライブラリを含むミドルウェア。Dockerで使用
Open WebUI: テキストと画像入力のための使いやすいインターフェースを提供
llamafile: 単一の実行ファイルでLLMを実行可能
AUTOMATIC1111 および Fooocus: 画像生成ツール。複雑なワークフローには ComfyUI を使用
Continue: VSCodeでコード補完を支援
Obsidian Smart Connections: Ollamaを使ってメモをクエリする機能を提供

モデル選択

Ollamaのモデルページから最新のLLMをダウンロード
RSSでモデル更新を追跡
CivitAIから画像生成モデルをダウンロード（注意: 一部のモデルは成人向け画像生成に最適化されている）
主に使用しているモデル:
- Llama3.2: 一般的なクエリとSmart Connectionsに使用
- Deepseek-coder-v2: VSCodeでのコード補完
- Qwen2.5-coder: コード関連の対話
- Stable Diffusion: 画像生成
広告

更新

WatchTowerを使ってDockerコンテナを更新
Open Web UIを通じてモデルを更新

ファインチューニングと量子化

現時点ではファインチューニングや量子化は行っていない（CPUの欠陥の可能性があるため、長時間の高温作業を避けている）

結論

ローカルでLLMを実行すると、データに対する完全な制御と低い応答遅延が得られる
オープンソースプロジェクトと無料モデルのおかげで、このような運用が可能になっている
新しいツールやモデルを使う場合は内容を更新する予定

まだコメントはありません。

まだコメントはありません。