💫 IPEX-LLM
IPEX-LLMは、Intel CPUおよびGPU上でLLMを非常に低いレイテンシで実行するためのPyTorchライブラリです。
- Intel PyTorch Extension(
IPEX)、llama.cpp、bitsandbytes、vLLM、qlora、AutoGPTQ、AutoAWQなどの優れた成果の上に構築されています。
llama.cpp、Text-Generation-WebUI、HuggingFace transformersなどとのシームレスな統合を提供します。
ipex-llmでは最適化・検証済みの50以上のモデルがあり、ここで一覧を確認できます。
最新アップデート 🔥
bigdl-llmはipex-llmに名称変更され、元のBigDLプロジェクトはこちらで確認できます。
ipex-llmは現在、ModelScope(M搭)から直接モデルを読み込めます。
ipex-llmはINT2サポートを追加し、Intel GPUで大規模LLM(例: Mixtral-8x7B)を16GB VRAMで実行できるようになりました。
- ユーザーは現在、Text-Generation-WebUI GUIを通じて
ipex-llmを利用できます。
ipex-llmは現在、_Self-Speculative Decoding_をサポートし、Intel GPUおよびCPUでFP16およびBF16推論のレイテンシをそれぞれ約30%高速化します。
ipex-llmは現在、Intel GPU上でのLLMファインチューニングの包括的な一覧をサポートしています。
ipex-llm デモ
- 第12世代Intel Core CPUとIntel Arc GPU上での
chatglm2-6bおよびllama-2-13b-chatモデルの最適化された性能を以下で確認できます。
ipex-llm クイックスタート
ipex-llm のインストール
- Windows GPU: Intel GPU搭載Windowsで
ipex-llmをインストール
- Linux GPU: Intel GPU搭載Linuxで
ipex-llmをインストール
- Docker: Intel CPUおよびGPUで
ipex-llm Dockerを使用
- 詳細はインストールガイドを参照
ipex-llm の実行
- llama.cpp: Intel GPUで
llama.cpp向けipex-llmを実行
- vLLM: Intel GPUおよびCPUで
vLLM内のipex-llmを実行
- FastChat: Intel GPUおよびCPUで
FastChatサービング上のipex-llmを実行
- LangChain-Chatchat RAG:
LangChain-Chatchatでipex-llmを実行
- Text-Generation-WebUI:
oobabooga WebUIでipex-llmを実行
- Benchmarking: Intel CPUおよびGPUで
ipex-llmのベンチマークを実行
コード例
- 低ビット推論
- INT4推論: Intel GPUおよびCPUでINT4 LLM推論
- FP8/FP4推論: Intel GPUでFP8およびFP4 LLM推論
- INT8推論: Intel GPUおよびCPUでINT8 LLM推論
- INT2推論: Intel GPUでINT2 LLM推論
- FP16/BF16推論
- FP16 LLM推論: Intel GPUで利用可能な自己推測デコーディング最適化付き
- BF16 LLM推論: Intel CPUで利用可能な自己推測デコーディング最適化付き
- 保存と読み込み
- 低ビットモデル:
ipex-llm低ビットモデルの保存と読み込み
- GGUF: GGUFモデルを
ipex-llmに直接読み込み
- AWQ: AWQモデルを
ipex-llmに直接読み込み
- GPTQ: GPTQモデルを
ipex-llmに直接読み込み
- ファインチューニング
- Intel GPUでのLLMファインチューニング。LoRA、QLoRA、DPO、QA-LoRA、ReLoRAを含む
- Intel CPUでのQLoRAファインチューニング
- コミュニティライブラリとの統合
- HuggingFace transformers
- 標準PyTorchモデル
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModelScope
- チュートリアル
- 詳細は
ipex-llmドキュメントWebサイトを参照
検証済みモデル
ipex-llmで最適化・検証済みの50以上のモデルには、LLaMA/LLaMA2、Mistral、Mixtral、Gemma、LLaVA、Whisperなどが含まれており、以下で一覧を確認できます。
GN⁺の意見
IPEX-LLMは、Intelハードウェア上で大規模言語モデルを最適化して実行できる強力なツールであり、人工知能の研究開発に大いに役立つ可能性があります。
- このライブラリは多様なモデルと統合されているため、ユーザーが容易に導入し活用できる利点があります。
- ただしIntelハードウェアに特化しているため、他メーカーのハードウェアでは最適な性能が保証されない可能性があります。
- この技術を導入する際には、ハードウェア互換性と性能チューニングについて十分な理解が必要です。
- 大規模言語モデルの推論とファインチューニングを迅速に進められるため、時間とリソースの節約に貢献できます.
1件のコメント
Hacker Newsのコメント
GPU VRAM革新への期待
インテルのソフトウェアサポートを好意的に評価
インテルGPUの推薦を求める声
性能ベンチマークへの関心
クラウドGPU利用のしやすさに関する提案
クラウド事業者におけるインテルGPU不在
製品レビューへの期待を表明