IntelのCPUおよびGPUでLLMを実行するためのPyTorchライブラリ

(github.com/intel-analytics)

1 ポイント投稿者 GN⁺ 2024-04-05 | 1件のコメント | WhatsAppで共有

IPEX-LLMはIntel GPU、NPU、CPUでLLMを高速化するPyTorch向けライブラリだが、現在このプロジェクトはアーカイブされており、Intelによる開発・サポートの保証はない
対応範囲には、ローカルPCのiGPU、Arc・Flex・Maxなどのdiscrete GPU、Intel Core Ultra NPU、CPUが含まれ、llama.cpp、Ollama、vLLM、HuggingFace transformers、LangChain、LlamaIndexなどと統合される
70以上のモデルがipex-llmで最適化または検証されており、Llama、Phi、Mistral、Mixtral、DeepSeek、Qwen、ChatGLM、MiniCPM、Qwen-VL、MiniCPM-Vなどが含まれる
最新アップデートには、DeepSeek V3/R1 671B、Qwen3MoE 235Bを1～2枚のIntel Arc GPUでFlashMoEにより実行する内容や、ipex-llm 2.2.0、PyTorch 2.6のGPU対応、Ollama・llama.cpp Portable Zip対応が含まれる
READMEには既知のセキュリティ問題があると明記されており、Intelは保守・バグ修正・新規リリース・アップデートを保証せず、パッチも今後受け付けない

プロジェクトの状態と基本目的

IPEX-LLMはIntelハードウェア上でLLMを高速化するためのLLM高速化ライブラリ
対象ハードウェアはIntel GPU、NPU、CPU
- GPUの例として、ローカルPCのiGPU、Arc、Flex、Maxなどのdiscrete GPU
- NPUはIntel Core Ultra系を対象とする
プロジェクト上部にはアーカイブ状態であることが明記されている
- Intelは開発またはサポートを提供せず、保証もしない
- 保守、バグ修正、新規リリース、アップデートは保証されない
- Intelはこのプロジェクトへのパッチを今後受け付けない
- 既知のセキュリティ問題がある

統合されるエコシステム

ipex-llmは複数のLLM実行・サービング・開発ツールと連携する
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
クイックスタート文書では、Ollama、llama.cpp、Arc B580、NPU、PyTorch/HuggingFace、vLLM、FastChat、複数Intel GPUでのサービング、Text-Generation-WebUI、Axolotl、ベンチマークを扱う
Dockerガイドには、C++ GPU推論、Python GPU推論、vLLM GPU・CPU、FastChat GPU、VSCode GPU開発環境が含まれる

モデルと最適化の範囲

READMEでは、70以上のモデルがipex-llmで最適化または検証されたとしている
例示されているモデル群は以下の通り
- LLaMA/LLaMA2/LLaMA 3系
- Mistral、Mixtral、Gemma
- LLaVA、Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- Qwen/Qwen-1.5/Qwen2系
- InternLM
- DeepSeek、MiniCPM、Qwen-VL、MiniCPM-V など
対応精度と量子化は低ビット推論を中心に構成されている
- FP8、FP6、FP4、INT4
- INT8
- INT2はllama.cppのIQ2メカニズムをベースに提供される
保存・読み込みの例には、INT4、FP4、FP6、INT8、FP8、FP16などの低ビットモデルや、GGUF、AWQ、GPTQモデルの読み込みが含まれる

デモと性能・精度データ

デモでは、ローカルLLMをIntel Core Ultra iGPU、Intel Core Ultra NPU、単一Arc GPU、複数Arc GPUで実行する例を提供している
- Intel Core Ultra iGPU: OllamaでMistral-7B Q4_Kを実行
- Intel Core Ultra NPU: HuggingFaceでLlama3.2-3B SYM_INT4を実行
- 2枚のIntel Arc dGPU: llama.cppでDeepSeek-R1-Distill-Qwen-32B Q4_Kを実行
- Intel Xeon + Arc dGPU: FlashMoEでQwen3MoE-235B Q4_Kを実行
パフォーマンスセクションでは、Intel Core UltraとIntel Arc GPUでのトークン生成速度データを提供している
ベンチマークガイドを通じてipex-llmの性能ベンチマークを自分で実行できる
モデル精度セクションでは、Wikitextデータセットで測定したPerplexity結果を提供している
- 比較精度はsym_int4、q4_k、fp6、fp8_e5m2、fp8_e4m3、fp16
- 対象モデルにはLlama-2-7B-chat-hf、Mistral-7B-Instruct-v0.2、Baichuan2-7B-chat、Qwen1.5-7B-chat、Llama-3.1-8B-Instruct、gemma-2-9b-itなどが含まれる
性能は使用方法、構成、その他の要因によって変動し、ipex-llmはIntel製以外の製品では同程度に最適化されていない可能性がある

開発・活用例

コード例は、低ビット推論、FP16/BF16推論、分散推論、保存・読み込み、ファインチューニング、コミュニティライブラリ統合に分かれている
ファインチューニングでは、Intel GPU上でLoRA、QLoRA、DPO、QA-LoRA、ReLoRAを含む
Intel CPUでもQLoRAファインチューニングの例が提供される
アプリケーションガイドでは、GraphRAG、RAGFlow、LangChain-Chatchat、Continue、Open WebUI、PrivateGPT、Difyでipex-llmを使う流れを扱う
API文書では、HuggingFace TransformersスタイルのAuto Classes APIと任意のPyTorchモデル最適化APIを提供する

1件のコメント

GN⁺ 2024-04-05

Hacker News のコメント

4コアに長くこだわっていた会社には、次のコンシューマー向け GPU で、この10年間 AMD と Nvidia が事実上押し付けてきた 8〜16GB VRAM の固定化を打ち破り、挽回するチャンスがある
手頃な価格で 32〜48GB が出てきたら、かなり詩的な展開になりそうだし、Intel はソフトウェアサポート面でもきちんと動いているように見える
- Intel は AI 分野で Nvidia に追いつきつつあるが、最大の理由は製品競争力が足りないからだ
  2022年10月発売の Intel Arc A770 16GB は約300ドル、Nvidia 4060 Ti 16GB は約500ドルだが、実際の AI ワークロードでは 4060 Ti がだいたい2倍速い: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  理論上は Arc A770 のほうが速いという点が、問題をさらに大きくしている。TFLOPS ベースの性能は Nvidia 4060 の2倍以上だ: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  ところが AI 関連のエコシステムはすべて Nvidia の CUDA 上で動くように開発・最適化されているため、実性能が低く出てしまう
  結局は知名度とエコシステムの問題だ。Intel が 32GB や 64GB VRAM を搭載したワークステーション GPU を、法外に高価なエンタープライズ向けの怪物ではなく、開発者が買える形で出せば、ものすごく売れるはずだ
  最速のカードである必要もない。競合製品より VRAM だけ多く載せればいい。今は学習や動画生成では GPU 速度より VRAM 不足のほうが大きなボトルネックなのに、Intel がなぜこれを見えていないのか分からない
- 24GB 超の VRAM は GDDR7 が出るまでは安くなりにくそうで、GDDR7 でも 36GB 程度まで押し上げられるくらいだと思う
  より高級な積層 GDDR6 系はかなり高価になる可能性が高く、信号整合性の問題のため、ダイを単純にさらに載せることもできない
- 私たちには明白に見えることが、プロダクトマネージャーには 業界標準に見えている
  業界のプレイヤーが既存の秩序を揺さぶったのを最後に見たのはいつだったかを考えると、Intel もそこまで大きく変わった会社ではない
- 手頃な価格で 32〜48GB が出れば素晴らしいという意見には同意する
  一部の Asrock マザーボード BIOS では Ryzen5 で VRAM を最大 64GB まで設定できると聞いていて、今いくつかの AMD ハードウェアで調べているところだ
- AMD が高品質なドライバーを作るなら、お金を払ってでも見物したい :-)
ベンチマークデータが気になる
例で示されていた速度はかなり良さそうに見えた
これを使える VRAM の多い Intel GPU のおすすめがあるのか気になる
- データセンター向け製品の Max GPU(Ponte Vecchio) があり、128GB HBM2e メモリ、408MB L2 キャッシュ、64MB L1 キャッシュを提供する
  Gaudi も似た数値だが、マーケティング資料上では AI ワークロードに特化したコアを備えている側だ
  Dell と Supermicro の完成品で入手できる: https://www.supermicro.com/en/accelerators/intel
  追加の読み物: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- コンシューマー向けなら Intel Arc A770 16GB VRAM がある
  それ以上はエンタープライズ製品群に入り始める
llamafile や他のものと比較した性能ベンチマークがあるのか気になる
[0] - https://github.com/mozilla-Ocho/llamafile
- すでに llama.cpp で Intel GPU を使用でき、ARC と内蔵 GPU のどちらも複数のバックエンドに対応している
  対応バックエンドは SYCL、Vulkan、OpenCL だ
  自分ではハードウェアを持っていないが、Intel がデータセンター方面で推していることを考えると、ARC では SYCL のほうが速そうだ
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
サンプルを実行できる クラウド GPU スクリプトも一緒にあるとよさそう
互換性のある GPU を推測させるより、クラウドプロバイダー上でそのまま実行できる形なら便利そうで、自分で作ってみようか考えている
主要クラウドプロバイダーの中に Intel GPU を提供しているところはない
- Intel GPU は東南アジア市場ではかなり浸透しており、Intel も新世代をまもなく投入する予定だ
  さらに Nvidia の GRID ライセンスと違い、追加ライセンス費用なしで GPU 仮想化を許可しているため、ホスティング事業者がカードを分割して提供できる
  今後 Intel ベースの提供はかなり増えそうな気がする
- クラウドではないが、コンシューマー向けとしてはかなり良い提案だ
  16GB メモリと 4060 Ti 近辺の性能を、価格の約65%で提供している
- それでも Intel CPU を提供しているところは多い

IntelのCPUおよびGPUでLLMを実行するためのPyTorchライブラリ

プロジェクトの状態と基本目的

統合されるエコシステム

モデルと最適化の範囲

最新アップデートで強調された機能

デモと性能・精度データ

開発・活用例

関連記事

1件のコメント

Hacker News のコメント