2 ポイント 投稿者 GN⁺ 2025-03-08 | まだコメントはありません。 | WhatsAppで共有
  • 最新の llama.cpp Portable Zip を使用して、Xeon 上で 1 台または 2 台の Arc A770 により DeepSeek-R1-671B-Q4_K_M を実行可能
  • このガイドでは、Intel GPU 上で ipex-llm を使って llama.cpp を直接実行する方法を説明

対応環境

  • Intel Core Ultra プロセッサ
  • Intel Core 第11世代~第14世代プロセッサ
  • Intel Arc A-Series GPU
  • Intel Arc B-Series GPU

目次

  • Windows クイックスタート
    • 事前準備
    • ステップ1: ダウンロードして展開
    • ステップ2: ランタイム構成
    • ステップ3: GGUF モデルの実行
  • Linux クイックスタート
    • 事前準備
    • ステップ1: ダウンロードして展開
    • ステップ2: ランタイム構成
    • ステップ3: GGUF モデルの実行
  • (新機能)FlashMoE を使った DeepSeek V3/R1 671B の実行
  • ヒントとトラブルシューティング
    • エラー: 異なる sycl デバイスが検出された
    • マルチ GPU の使用
    • パフォーマンス環境
  • 詳細情報

Windows クイックスタート

事前準備

  • GPU ドライバのバージョンを確認し、必要に応じて更新
    • Intel Core Ultra プロセッサまたは Intel Arc B-Series GPU の場合は最新ドライバを推奨
    • その他の Intel iGPU/dGPU の場合はドライババージョン 32.0.101.6078 を推奨

ステップ1: ダウンロードして展開

  • Windows ユーザーは IPEX-LLM llama.cpp portable zip をダウンロードし、フォルダに展開

ステップ2: ランタイム構成

  • 「コマンド プロンプト」を開き、cd /d PATH\TO\EXTRACTED\FOLDER コマンドでフォルダに移動
  • GPU アクセラレーションを使用するには、いくつかの環境変数が必要または推奨される
    • set SYCL_CACHE_PERSISTENT=1 を設定
  • マルチ GPU ユーザーは、特定の GPU を選択する方法をヒントで確認

ステップ3: GGUF モデルの実行

  • コミュニティ製 GGUF モデルをローカルディレクトリにダウンロードまたはコピー
  • モデルパスを設定した後、llama-cli.exe コマンドで実行

Linux クイックスタート

事前準備

  • GPU ドライバのバージョンを確認し、必要に応じて更新
  • Intel クライアント GPU ドライバ インストールガイドに従ってドライバをインストールすることを推奨

ステップ1: ダウンロードして展開

  • Linux ユーザーは IPEX-LLM llama.cpp portable tgz をダウンロードし、フォルダに展開

ステップ2: ランタイム構成

  • 「ターミナル」を開き、cd /PATH/TO/EXTRACTED/FOLDER コマンドでフォルダに移動
  • GPU アクセラレーションを使用するには、いくつかの環境変数が必要または推奨される
    • export SYCL_CACHE_PERSISTENT=1 を設定
  • マルチ GPU ユーザーは、特定の GPU を選択する方法をヒントで確認

ステップ3: GGUF モデルの実行

  • コミュニティ製 GGUF モデルをローカルディレクトリにダウンロードまたはコピー
  • モデルパスを設定した後、./llama-cli コマンドで実行

FlashMoE for DeepSeek V3/R1

  • FlashMoE は llama.cpp ベースのコマンドラインツールで、MoE モデル向けに最適化されている
  • Linux プラットフォームで利用可能
  • テスト済みの MoE GGUF モデル: DeepSeek-V3-Q4_K_M、DeepSeek-V3-Q6_K など

ヒントとトラブルシューティング

エラー: 異なる sycl デバイスが検出された

  • 異なる sycl デバイスが検出されると、最も遅いデバイスの性能に合わせて制限される
  • SYCL_DEVICE_CHECK=0 を設定するとこのチェックを無効化し、すべてのデバイスを使用できる

マルチ GPU の使用

  • 複数の Intel GPU がある場合、デフォルトではすべての GPU で実行される
  • 特定の GPU を使うには ONEAPI_DEVICE_SELECTOR 環境変数を設定

パフォーマンス環境

  • SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS の設定でパフォーマンス向上が可能
  • このモードは性能を向上させる一方で、例外が発生する可能性がある

このガイドは、Intel GPU 上で llama.cpp を効率的に実行する方法を提供し、さまざまな設定と最適化方法を含む。

まだコメントはありません。

まだコメントはありません。