Together、StripedHyena-7Bモデルを公開
(together.ai)- 非常に長い(Ultra Long)コンテキストをサポートするため、Transformerに代わる新しいアーキテクチャであるHyenaを採用
- Hyenaは信号処理に着想を得たシーケンスモデルベース
- 短い/長いコンテキスト評価でTransformersと競合する初の代替モデル
- OpenLLMリーダーボードのタスクでLlama-2、Yi、Mistral 7Bと同程度の性能を発揮し、長いコンテキストの要約で優れた性能を示す
- StripedHyenaは長いシーケンスの学習、微調整、生成において、より高速でメモリ効率が高い
- 新しいモデル接木(Model Grafting)手法を用いて最適化されており、学習中にモデルアーキテクチャを変更できる
- StripedHyenaは、TransformerとHyenaのアーキテクチャ構成要素を接木して得られたもので、より長いコンテキストデータで強化されたRedPajamaデータセットを混合して学習させている
まだコメントはありません。