1 ポイント 投稿者 GN⁺ 2023-08-07 | 1件のコメント | WhatsAppで共有
  • MK-1は、OpenAI、Anthropic、GoogleのようなエリートAIプレイヤーと同等、あるいはそれ以上の能力を持つAIモデルの提供を目指す新しい企業です。
  • 同社の最初の製品であるMKMLは、数行のPythonコードだけでGPU上の大規模言語モデル(LLM)推論コストを2分の1に削減できる推論ランタイムです。
  • MKMLは、Hugging FaceやPyTorchといった人気のエコシステムと互換性があります。
  • MKMLは現在クローズドベータリリース段階にあり、初期パートナーを募集しています。
  • MKMLは、AIモデルのメモリ使用量を減らし、速度を高めることで最適化するのに役立ちます。たとえば、Llama-2 13Bモデルを26GBから10.5GBに削減し、フォワードパスの推論時間を最大2.3倍短縮できます。
  • MKMLは、コストまたは速度に応じてAIモデルを最適化するために使用できます。コスト最適化のシナリオでは、モデルをより安価なGPUインスタンスに適合させることができ、より高価なインスタンス上ではベースモデルよりも高速に実行できます。速度最適化のシナリオでは、MKMLによってモデルを最大2.0倍高速化し、より多くのユーザーにサービスを提供できます。
  • MKMLは既存のワークフローに容易に統合できます。これには、MKMLのモデルコーデックの1つを使ってモデルを一度圧縮し、圧縮済みモデルをディスクに保存してから推論用に読み込むプロセスが含まれます。
  • MKMLはさまざまなモデルサイズとシステム構成をサポートしており、速度テストでは一貫してベースラインを上回ります。
  • MKMLはまた、元のモデルに対する高い忠実度を維持しており、標準的なパープレキシティ測定でも差は無視できるレベルです。
  • MK-1の長期的なビジョンは、推論スタック全体にわたってAIの性能を限界まで引き上げることです。彼らは今後の開発に向けた野心的なロードマップを持っています.

1件のコメント

 
GN⁺ 2023-08-07
Hacker Newsの意見
  • 記事では新しい技術であるMK-1について論じているが、既存の量子化手法との結果比較がなく、一部の読者は重要な欠落だと見ている。
  • ある読者は、Llama 1で利用可能な他の量子化との比較チャートを提示し、MK-1の性能はQ5_1に近く、複雑さがやや低く、2倍以上の高速化があると示唆している。
  • 一部の読者はMK-1に懐疑的で、bitsandbytesやggmlのような既存技術を包んだラッパーにすぎない可能性があると示唆している。
  • MK-1がオープンソースではない点への懸念が提起されており、この分野の進展の速さや利便性の不足を理由に使わないと述べる読者もいる。
  • ある読者はMLモデルの量子化作業に携わった経験があり、オープンソースの4ビットまたは8ビット量子化が最善ではないと主張し、より高度な技術をほのめかしている。
  • MK-1と4ビット量子化を備えたmlc-llmとの比較が求められており、後者はLlama2 13Bを驚くほど高速に実行すると報告されている。
  • 一部の読者は技術スタックにおけるプロプライエタリな依存関係に不満を示し、OpenAIやAnthropicのような最高水準の選択肢を使うか、自前のソリューションを作ることを好んでいる。
  • 企業が人気モデルを最適化し、実際のOSSライセンスで販売し、重みに対するライセンス制限を気にしないという判断は、戦略的な動きに見える。
  • 一部の読者はMK-1をまた別のAIスタートアップ詐欺だとみなし、GGMLを使い、クローズドで、VC資金を求めていると非難している。
  • MK-1のオープンソース不在と閉鎖的な性格は大きな欠点と見なされており、一部の読者はこれを「溺れる者」と断じている。