1台/2台の Arc A770 Xeon で DeepSeek-R1-671B-Q4_K_M を実行する
(github.com/intel)- 最新の llama.cpp Portable Zip を使用して、Xeon 上で 1 台または 2 台の Arc A770 により DeepSeek-R1-671B-Q4_K_M を実行可能
- このガイドでは、Intel GPU 上で
ipex-llmを使って llama.cpp を直接実行する方法を説明
対応環境
- Intel Core Ultra プロセッサ
- Intel Core 第11世代~第14世代プロセッサ
- Intel Arc A-Series GPU
- Intel Arc B-Series GPU
目次
- Windows クイックスタート
- 事前準備
- ステップ1: ダウンロードして展開
- ステップ2: ランタイム構成
- ステップ3: GGUF モデルの実行
- Linux クイックスタート
- 事前準備
- ステップ1: ダウンロードして展開
- ステップ2: ランタイム構成
- ステップ3: GGUF モデルの実行
- (新機能)FlashMoE を使った DeepSeek V3/R1 671B の実行
- ヒントとトラブルシューティング
- エラー: 異なる sycl デバイスが検出された
- マルチ GPU の使用
- パフォーマンス環境
- 詳細情報
Windows クイックスタート
事前準備
- GPU ドライバのバージョンを確認し、必要に応じて更新
- Intel Core Ultra プロセッサまたは Intel Arc B-Series GPU の場合は最新ドライバを推奨
- その他の Intel iGPU/dGPU の場合はドライババージョン 32.0.101.6078 を推奨
ステップ1: ダウンロードして展開
- Windows ユーザーは IPEX-LLM llama.cpp portable zip をダウンロードし、フォルダに展開
ステップ2: ランタイム構成
- 「コマンド プロンプト」を開き、
cd /d PATH\TO\EXTRACTED\FOLDERコマンドでフォルダに移動 - GPU アクセラレーションを使用するには、いくつかの環境変数が必要または推奨される
set SYCL_CACHE_PERSISTENT=1を設定
- マルチ GPU ユーザーは、特定の GPU を選択する方法をヒントで確認
ステップ3: GGUF モデルの実行
- コミュニティ製 GGUF モデルをローカルディレクトリにダウンロードまたはコピー
- モデルパスを設定した後、
llama-cli.exeコマンドで実行
Linux クイックスタート
事前準備
- GPU ドライバのバージョンを確認し、必要に応じて更新
- Intel クライアント GPU ドライバ インストールガイドに従ってドライバをインストールすることを推奨
ステップ1: ダウンロードして展開
- Linux ユーザーは IPEX-LLM llama.cpp portable tgz をダウンロードし、フォルダに展開
ステップ2: ランタイム構成
- 「ターミナル」を開き、
cd /PATH/TO/EXTRACTED/FOLDERコマンドでフォルダに移動 - GPU アクセラレーションを使用するには、いくつかの環境変数が必要または推奨される
export SYCL_CACHE_PERSISTENT=1を設定
- マルチ GPU ユーザーは、特定の GPU を選択する方法をヒントで確認
ステップ3: GGUF モデルの実行
- コミュニティ製 GGUF モデルをローカルディレクトリにダウンロードまたはコピー
- モデルパスを設定した後、
./llama-cliコマンドで実行
FlashMoE for DeepSeek V3/R1
- FlashMoE は llama.cpp ベースのコマンドラインツールで、MoE モデル向けに最適化されている
- Linux プラットフォームで利用可能
- テスト済みの MoE GGUF モデル: DeepSeek-V3-Q4_K_M、DeepSeek-V3-Q6_K など
ヒントとトラブルシューティング
エラー: 異なる sycl デバイスが検出された
- 異なる sycl デバイスが検出されると、最も遅いデバイスの性能に合わせて制限される
SYCL_DEVICE_CHECK=0を設定するとこのチェックを無効化し、すべてのデバイスを使用できる
マルチ GPU の使用
- 複数の Intel GPU がある場合、デフォルトではすべての GPU で実行される
- 特定の GPU を使うには
ONEAPI_DEVICE_SELECTOR環境変数を設定
パフォーマンス環境
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTSの設定でパフォーマンス向上が可能- このモードは性能を向上させる一方で、例外が発生する可能性がある
このガイドは、Intel GPU 上で llama.cpp を効率的に実行する方法を提供し、さまざまな設定と最適化方法を含む。
まだコメントはありません。