glhf - (ほぼ)あらゆる言語モデルを実行
(glhf.chat)- vLLMと独自開発のオートスケーリングGPUスケジューラを使って、ほぼすべてのオープンソース大規模言語モデルを実行
- Llama 3.1 405b、Qwen 2 72b、Gemma 2 27b、Phi-3 など
- 特別な設定なしでHugging Faceリポジトリのリンクを貼り付けるだけで動作:すべてのFull-weightおよび4-bit AWQ Repoに対応
- 最大8基のNvidia A100 80Gb GPUを利用可能
- ベータ期間中は無料で提供。ベータ終了後もマルチテナントで動作するため、主要クラウドのGPU価格より有利になる見込み
2件のコメント
llama 405bをどうやって試そうかと思っていたのですが、速くて品質もいいですね
vLLM: PagedAttentionを用いた、簡単で高速かつ低コストなLLMサービング