AMD、AI推論の性能・効率向上に向けMK1を買収

(mkone.ai)

1 ポイント投稿者 GN⁺ 2023-08-07 | 1件のコメント | WhatsAppで共有

AMDはMK1の買収を通じて、AI推論の性能と効率をハードウェアからソフトウェアまでスタック全体で引き上げようとしている
Mountain Viewを拠点とするMK1は、大規模展開に適した高速推論とreasoningベースのAI技術に注力してきたチーム
MK1のFlywheelはAMDハードウェア向けに最適化されており、現在1日あたり1兆個以上のトークンを処理している
MK1チームはAMD Artificial Intelligence Groupに加わり、エンタープライズAIソフトウェアスタックと推論能力の強化に投入される
Flywheelとcomprehension enginesはAMD Instinct GPUのメモリアーキテクチャを活用し、大規模reasoningの正確性、コスト効率、トレーサビリティ向上に重点を置いている

AMD AIスタックに加わったMK1

AMDはMK1の買収を完了し、これをAI性能と効率をスタック全体で高めるための戦略的マイルストーンと位置づけている
MK1はCalifornia州Mountain Viewを拠点とするチームで、大規模展開向けに最適化された高速推論とreasoningベースのAI技術を開発してきた
MK1のFlywheel技術はAMDハードウェア向けに最適化されており、現在1日あたり1兆個超のトークンを処理している
MK1チームはAMD Artificial Intelligence Groupに加わった
- このチームの技術と専門性は、AMDの高速推論能力とエンタープライズAIソフトウェアスタックの発展に活用される

Flywheelが狙うエンタープライズAI

MK1のFlywheelとcomprehension enginesは、AMD Instinct GPUのメモリアーキテクチャを活用するよう設計されている
この技術は、大規模環境で正確性、コスト効率、完全なトレーサビリティを備えたreasoningの提供に焦点を当てている
AMDはMK1のソフトウェア革新と自社のコンピューティング能力を組み合わせ、エンタープライズAIの次の段階を加速しようとしている
- 顧客が複雑なビジネスプロセスを自動化できるよう支援
- 高付加価値アプリケーションで新たな機会を開けるよう支援
買収の期待効果に関する記述は将来予想に関する記述に該当し、実際の結果はAMDのSEC提出書類に記載されたリスクと不確実性によって異なる可能性がある

1件のコメント

GN⁺ 2023-08-07

Hacker Newsのコメント

既存の量子化手法に一度も触れず、結果とも比較していないのは奇妙
普段は善意に解釈するようにしているが、すでに広く使われている同じ目的の手法を知らないはずはないので、比較ベンチマークがあるべき
抜けている部分を補うと、Llama 1についてはllama.cppが提供する量子化別の比較表[0]がある。Llama 2の指標とは直接比較できないが、速度とパープレキシティの変化率だけを見ると、MK-1はQ5_1と非常によく似ているように見える。パープレキシティは小さいが無視できない程度に悪化し、速度は2倍を少し超える程度に速くなる
この数値が正しければ、Hugging Faceから事前に量子化されたLlama 2モデルをダウンロードして、MK-1が提供するものと実質的に同じ性能を出せる。Q5ファイルはこちら: https://huggingface.co/TheBloke/Llama-2-13B-GGML/tree/main
[0] https://github.com/ggerganov/llama.cpp#quantization
- 創業者の一人です。既存の方法と比較しないことにした理由は、公平に比較するのが難しいと考えたからです
  手法ごとにトレードオフやユースケースが多く、一方が悪く他方が良いという問題ではなく、目標とする設計点が異なります。たとえばクラウドとローカルは違います。私たちは数値とベンチマークを公開しており、現在の価値提案に合う初期パートナーを探しているため、非公開ベータで進めています
  たとえばllama.cppは、単一ユーザーのケース（batch=1）でローカルにモデルを動かす優れたフレームワークです。llama.cppはRPi、CPU、GPUのような複数のバックエンドをサポートしていますが、マルチユーザーのケース（batch >> 1）のGPUで、特定のパープレキシティ、圧縮率、速度の基準においてMKMLの方が優れていると比較して見せるのは公平ではないと考えています。私の知る限り、それはllama.cppの想定ユースケースではないからです。たとえばMKMLはLlama-2 7Bを4090でbatch 32、つまり32個のプロンプトを並列処理して約2700 tok/secを出し、メモリ使用量は5.2GB、パープレキシティはほぼfp16水準です
  また現在、私たちは量子化用のオープンソースツールや手法をラップして使っているわけではありません。すべて自社技術で、近いうちにさらに公開できるニュースがあります。具体的な技術的質問があれば、できる限り答えます
- 「コーデック」という言葉を使うのも少し引っかかる。まったく新しいパラダイムを発明したかのように見せつつ、動画圧縮を連想させる格好いい名前を付けようとしている感じがする
- この週末にAMD 7900 XTX上で、llama.cppとq5_k_s量子化を使ってLlama2をいろいろ試してみた
  彼らが示したRTX 4090のMK600の数値と比べると、より安いGPUを使っているにもかかわらず、スループットはより高く、パープレキシティはより低く測定された
- Q5_1もすでに古い方式。K系の量子化は同じパープレキシティ損失でより速く、容量効率も良い
  https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- MKMLはLlama2-13Bのモデルサイズを26GBから10.5GBに減らしたという。TheBlokeの似た提供物は10.7GBのQ6_Kモデル
  もしかすると、GGMLとllama.cppを使いやすく包装しながら、人々に独自技術だと信じさせているだけかもしれない
既存の量子化手法に一度も触れない？ 10ドル賭けてもいいが、これは単にbitsandbytesかggmlを包んだラッパーである可能性が高い
オープンソースでなければ使いにくそう
この分野はあまりにも速く動いているし、そうでなければ利便性も十分ではない
付け加えると、ブランディングがMK-ultraを想起させるので、避けた方がよさそう
機械学習モデルの量子化をしたことがある。オープンソースの4ビットや8ビット量子化が得られる最善というわけではない
サイズを小さくしながら予測性能を維持する、はるかに高度な手法がある。一部の手法、たとえば量子化認識学習は学習プロセスの変更を含む
- より良い方法があるのは確か。ただこの場合、MKMLの数値は、すでに広く使われている代表的な量子化手法と並べると印象的ではない
  この表[0]によると、サイズはQ6_K量子化に最も近く、パープレキシティはむしろやや悪く見える
  彼らの手法がより優れているなら、生のfp16モデルだけが唯一の代替案であるかのように見せるのではなく、オープンソース手法の存在を認めて比較表に入れていたと思う
  [0] https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- Unumの量子化方法はどうなの？
  https://github.com/unum-cloud/usearch
また別のAIスタートアップのグリフトに見える。GGMLを使って閉じ込め、そのうえでVC資金を得ようとするようなやり方
また別のAIラッパー企業が同じことをして、LLMブームが冷める前に乗ろうとしているように見える
オープンソースではなく閉じているなら、最初から望み薄だ
これって単なる量子化じゃないの？
- デモ動画を見ると、両方の出力が正確に同じなので、量子化を使っているのかは疑わしい
- まさにそう思った。すでにみんながやっていることだ。何か別のことをしているのでなければ、単に高速に8ビットや4ビットなどへ量子化するより、なぜ優れているのかを示すべき
- 何であれ、近いうちにllama.cppのようなオープンソースツールに複製されるか、似た機能が入る可能性が高い
  防御可能な優位性には見えない。動きの速いオープンソース代替と戦う一機能に見える
オープンソースの取り組みではないのが残念
自分のスタックに独自依存関係が入るのはまったく好ましくない
- これがどこまで行けるのか、かなり懐疑的。オープンソースコミュニティはすでに量子化で実質的に同じ性能改善を達成している
  既存のライブラリを再包装して、慎重さを欠き情報不足なAIスタートアップに売ろうとしているように感じる
4ビット量子化を使うmlc-llmと比べるとどうなの？自分の4090ではllama2 13Bがものすごく速く動く
同じ4ビット量子化を使っていても、GPU上のllama.cppより何倍も速い
- その通り、TVM Vulkan自動チューニングは驚異的。自分の考えでは、matmul Vulkan拡張も使っていないように見える
  MLCの4ビット量子化はllama.cppに比べると単純な方なので、パープレキシティを低くし、速度差の一部も説明できる。ただし最も大きく欠けている機能はCPUオフロード。これがあれば4090で70Bもかなり現実的に動かせる
  ローカルLLM推論の聖杯は、Llama 70BをTVMで動かしながらGPUと内蔵GPUに分割して載せることだと思う。ほとんど目の前まで来ている感じがする。ピースは全部そろっているが、その点をつなぐフロントエンド開発者がいない
最近はこういうことをMacBook Proでもできる。ここでまた別のベンダーにロックインされたい理由がよく分からない
最高のものを使いたいならOpenAIやAnthropicを使い、そうでなければ自分で動かせばいい
これは本当にUltra Instinct^H^H Llama2の効果なのか？
Facebookがエコシステムやツール制作者、より小規模な推論サービスを実質的に強化している
この会社は信頼性があり人気のあるモデル、実際のオープンソースライセンスを持つモデルと関連する重みにアクセスでき、そのため重み自体のライセンスや制限を気にせず、その上に最適化を施して販売できた

AMD、AI推論の性能・効率向上に向けMK1を買収

AMD AIスタックに加わったMK1

Flywheelが狙うエンタープライズAI

関連記事

1件のコメント

Hacker Newsのコメント