- AMDは初の小規模言語モデル AMD-135M を公開
- このモデルは AMD Instinct™ MI250 アクセラレータを使用し、6,700億トークンで学習
- 2つのモデルに分かれる: AMD-Llama-135M と AMD-Llama-135M-code
- AMD-Llama-135M モデルは一般データを使用し、6日間で6,700億トークンを学習
- AMD-Llama-135M-code モデルは、さらに200億のコードデータトークンで4日間ファインチューニング
- このモデルの学習コード、データセット、重みはオープンソースで提供
- Speculative Decoding による推論性能の最適化
- 大規模言語モデルは一般に自己回帰型アプローチを用いて推論を行う
- このアプローチの主な制約は、各フォワードパスで単一トークンしか生成できない点
- Speculative Decoding の導入によりこの問題を解決
- 小さなドラフトモデルを用いて候補トークンの集合を生成し、より大きなターゲットモデルがそれを検証
- このアプローチにより各フォワードパスで複数トークンを生成でき、メモリアクセスの消費を大幅に減らし、速度を大きく向上
- 推論性能の高速化
- AMD-Llama-135M-code を CodeLlama-7b のドラフトモデルとして使用し、推論性能をテスト
- MI250 アクセラレータと Ryzen™ AI プロセッサ(NPU 搭載)で、Speculative Decoding の有無を比較
- 特定の構成では、Speculative Decoding を使った場合に速度向上を確認
- 次のステップ
- AMDはオープンソースの参照実装を提供し、AIコミュニティでのイノベーションを促進
- AMD-135M の詳細は技術ブログで確認可能
- AMD Github リポジトリでコードにアクセス可能
- Hugging Face Model Card からモデルファイルをダウンロード可能
- AMD Developer Cloud で Instinct アクセラレータカードへのアクセスを申請可能
GN⁺のまとめ
- AMD初の小規模言語モデル AMD-135M は、AIコミュニティにとって重要な前進
- Speculative Decoding により推論性能を大幅に向上
- オープンソースの参照実装を通じて、開発者がモデルを再現し、ほかの SLM や LLM を学習できるよう支援
- AI分野でのイノベーションを促進し、より包括的で倫理的な技術発展を目指す
1件のコメント
汎用人工知能へと発展するには、次元的な飛躍のきっかけが必要ですが、そのきっかけこそが、まさに教育です。