1 ポイント 投稿者 GN⁺ 2024-04-05 | 1件のコメント | WhatsAppで共有

💫 IPEX-LLM

  • IPEX-LLMは、Intel CPUおよびGPU上でLLMを非常に低いレイテンシで実行するためのPyTorchライブラリです。
  • Intel PyTorch Extension(IPEX)、llama.cppbitsandbytesvLLMqloraAutoGPTQAutoAWQなどの優れた成果の上に構築されています。
  • llama.cpp、Text-Generation-WebUI、HuggingFace transformersなどとのシームレスな統合を提供します。
  • ipex-llmでは最適化・検証済みの50以上のモデルがあり、ここで一覧を確認できます。

最新アップデート 🔥

  • bigdl-llmipex-llmに名称変更され、元のBigDLプロジェクトはこちらで確認できます。
  • ipex-llmは現在、ModelScope(M搭)から直接モデルを読み込めます。
  • ipex-llmはINT2サポートを追加し、Intel GPUで大規模LLM(例: Mixtral-8x7B)を16GB VRAMで実行できるようになりました。
  • ユーザーは現在、Text-Generation-WebUI GUIを通じてipex-llmを利用できます。
  • ipex-llmは現在、_Self-Speculative Decoding_をサポートし、Intel GPUおよびCPUでFP16およびBF16推論のレイテンシをそれぞれ約30%高速化します。
  • ipex-llmは現在、Intel GPU上でのLLMファインチューニングの包括的な一覧をサポートしています。

ipex-llm デモ

  • 第12世代Intel Core CPUとIntel Arc GPU上でのchatglm2-6bおよびllama-2-13b-chatモデルの最適化された性能を以下で確認できます。

ipex-llm クイックスタート

ipex-llm のインストール

  • Windows GPU: Intel GPU搭載Windowsでipex-llmをインストール
  • Linux GPU: Intel GPU搭載Linuxでipex-llmをインストール
  • Docker: Intel CPUおよびGPUでipex-llm Dockerを使用
  • 詳細はインストールガイドを参照

ipex-llm の実行

  • llama.cpp: Intel GPUでllama.cpp向けipex-llmを実行
  • vLLM: Intel GPUおよびCPUでvLLM内のipex-llmを実行
  • FastChat: Intel GPUおよびCPUでFastChatサービング上のipex-llmを実行
  • LangChain-Chatchat RAG: LangChain-Chatchatipex-llmを実行
  • Text-Generation-WebUI: oobabooga WebUIipex-llmを実行
  • Benchmarking: Intel CPUおよびGPUでipex-llmのベンチマークを実行

コード例

  • 低ビット推論
    • INT4推論: Intel GPUおよびCPUでINT4 LLM推論
    • FP8/FP4推論: Intel GPUでFP8およびFP4 LLM推論
    • INT8推論: Intel GPUおよびCPUでINT8 LLM推論
    • INT2推論: Intel GPUでINT2 LLM推論
  • FP16/BF16推論
    • FP16 LLM推論: Intel GPUで利用可能な自己推測デコーディング最適化付き
    • BF16 LLM推論: Intel CPUで利用可能な自己推測デコーディング最適化付き
  • 保存と読み込み
    • 低ビットモデル: ipex-llm低ビットモデルの保存と読み込み
    • GGUF: GGUFモデルをipex-llmに直接読み込み
    • AWQ: AWQモデルをipex-llmに直接読み込み
    • GPTQ: GPTQモデルをipex-llmに直接読み込み
  • ファインチューニング
    • Intel GPUでのLLMファインチューニング。LoRA、QLoRA、DPO、QA-LoRA、ReLoRAを含む
    • Intel CPUでのQLoRAファインチューニング
  • コミュニティライブラリとの統合
    • HuggingFace transformers
    • 標準PyTorchモデル
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModelScope
  • チュートリアル
    • 詳細はipex-llmドキュメントWebサイトを参照

検証済みモデル

  • ipex-llmで最適化・検証済みの50以上のモデルには、LLaMA/LLaMA2、Mistral、Mixtral、Gemma、LLaVA、Whisperなどが含まれており、以下で一覧を確認できます。

GN⁺の意見

  • IPEX-LLMは、Intelハードウェア上で大規模言語モデルを最適化して実行できる強力なツールであり、人工知能の研究開発に大いに役立つ可能性があります。
  • このライブラリは多様なモデルと統合されているため、ユーザーが容易に導入し活用できる利点があります。
  • ただしIntelハードウェアに特化しているため、他メーカーのハードウェアでは最適な性能が保証されない可能性があります。
  • この技術を導入する際には、ハードウェア互換性と性能チューニングについて十分な理解が必要です。
  • 大規模言語モデルの推論とファインチューニングを迅速に進められるため、時間とリソースの節約に貢献できます.

1件のコメント

 
GN⁺ 2024-04-05
Hacker Newsのコメント
  • GPU VRAM革新への期待

    ある企業は「4コア永久」から脱却し、次のコンシューマー向けGPUの投入によって、AMDとNvidiaの長年の制約である「8〜16GB VRAM永久」を打ち破る機会を持っている。32〜48GBのVRAMを妥当な価格で提供できれば、実に象徴的だろう。

  • インテルのソフトウェアサポートを好意的に評価

    インテルはソフトウェアサポートにおいて正しい方向に進んでいる。ベンチマークデータを見てみたいし、提示されている例での速度はかなり良さそうに見える。

  • インテルGPUの推薦を求める声

    大容量のVRAMを備えたインテルGPUのおすすめが欲しい。これと互換性のある製品があるのか知りたい。

  • 性能ベンチマークへの関心

    llamafile や他のベンチマークとの性能比較に関心がある。該当するベンチマークへのリンクも共有されている。

  • クラウドGPU利用のしやすさに関する提案

    クラウド事業者上の互換GPUでサンプルを実行できるスクリプトがあると良さそうだ。そうしたことに関心があるのか、あるいは自分で構成することを考えている。

  • クラウド事業者におけるインテルGPU不在

    主要なクラウド事業者ではインテルGPUが提供されていない。

  • 製品レビューへの期待を表明

    レビューを楽しみにしており、今後の製品評価にも関心がある。