27 ポイント 投稿者 GN⁺ 2024-12-30 | まだコメントはありません。 | WhatsAppで共有
  • r/LocalLLaMAサブレディットおよびOllamaブログから、ローカルLLMの実行を始めるうえで役立つ情報を得られる

ハードウェア構成

  • Core i9(32スレッド)CPU、4090 GPU(16GB VRAM)、96GB RAMを搭載したLinuxベースのラップトップを使用
  • VRAMに収まるモデルは高速に動作し、大きなモデルはRAMへオフロードされるため遅くなることがある
  • 高性能なコンピューターは必須ではなく、小さなモデルであれば古いGPUやCPUでも動作可能

使用ツール

  • Ollama: Llama.cppを実行するためのPythonおよびJavaScriptライブラリを含むミドルウェア。Dockerで使用
  • Open WebUI: テキストと画像入力のための使いやすいインターフェースを提供
  • llamafile: 単一の実行ファイルでLLMを実行可能
  • AUTOMATIC1111 および Fooocus: 画像生成ツール。複雑なワークフローには ComfyUI を使用
  • Continue: VSCodeでコード補完を支援
  • Obsidian Smart Connections: Ollamaを使ってメモをクエリする機能を提供

モデル選択

  • Ollamaのモデルページから最新のLLMをダウンロード
  • RSSでモデル更新を追跡
  • CivitAIから画像生成モデルをダウンロード(注意: 一部のモデルは成人向け画像生成に最適化されている)
  • 主に使用しているモデル:
    • Llama3.2: 一般的なクエリとSmart Connectionsに使用
    • Deepseek-coder-v2: VSCodeでのコード補完
    • Qwen2.5-coder: コード関連の対話
    • Stable Diffusion: 画像生成
    広告

更新

  • WatchTowerを使ってDockerコンテナを更新
  • Open Web UIを通じてモデルを更新

ファインチューニングと量子化

  • 現時点ではファインチューニングや量子化は行っていない(CPUの欠陥の可能性があるため、長時間の高温作業を避けている)

結論

  • ローカルでLLMを実行すると、データに対する完全な制御と低い応答遅延が得られる
  • オープンソースプロジェクトと無料モデルのおかげで、このような運用が可能になっている
  • 新しいツールやモデルを使う場合は内容を更新する予定

まだコメントはありません。

まだコメントはありません。