5 ポイント 投稿者 xguru 2024-07-29 | 2件のコメント | WhatsAppで共有
  • vLLMと独自開発のオートスケーリングGPUスケジューラを使って、ほぼすべてのオープンソース大規模言語モデルを実行
    • Llama 3.1 405b、Qwen 2 72b、Gemma 2 27b、Phi-3 など
  • 特別な設定なしでHugging Faceリポジトリのリンクを貼り付けるだけで動作:すべてのFull-weightおよび4-bit AWQ Repoに対応
  • 最大8基のNvidia A100 80Gb GPUを利用可能
  • ベータ期間中は無料で提供。ベータ終了後もマルチテナントで動作するため、主要クラウドのGPU価格より有利になる見込み

2件のコメント

 
wedding 2024-07-30

llama 405bをどうやって試そうかと思っていたのですが、速くて品質もいいですね