glhf - （ほぼ）あらゆる言語モデルを実行

xguru · 2024-07-29T10:06:01+09:00

vLLMと独自開発のオートスケーリングGPUスケジューラを使って、ほぼすべてのオープンソース大規模言語モデルを実行 Llama 3.1 405b、Qwen 2 72b、Gemma 2 27b、Phi-3 など特別な設定なしでHugging Faceリポジトリのリンクを貼り付けるだけで動作：すべてのFull-weightおよび4-bit AWQ Repoに対応最大8基のNvidia A100 80Gb GPUを利用可能ベータ期間中は無料で提供。ベータ終了後もマルチテナントで動作するため、主要クラウドのGPU価格より有利になる見込み

(glhf.chat)

5 ポイント投稿者 xguru 2024-07-29 | 2件のコメント | WhatsAppで共有

vLLMと独自開発のオートスケーリングGPUスケジューラを使って、ほぼすべてのオープンソース大規模言語モデルを実行
- Llama 3.1 405b、Qwen 2 72b、Gemma 2 27b、Phi-3 など
特別な設定なしでHugging Faceリポジトリのリンクを貼り付けるだけで動作：すべてのFull-weightおよび4-bit AWQ Repoに対応
最大8基のNvidia A100 80Gb GPUを利用可能
ベータ期間中は無料で提供。ベータ終了後もマルチテナントで動作するため、主要クラウドのGPU価格より有利になる見込み

2件のコメント

wedding 2024-07-30

llama 405bをどうやって試そうかと思っていたのですが、速くて品質もいいですね

xguru 2024-07-29

vLLM: PagedAttentionを用いた、簡単で高速かつ低コストなLLMサービング

glhf - （ほぼ）あらゆる言語モデルを実行

関連記事

2件のコメント