9 ポイント 投稿者 xguru 2023-12-13 | まだコメントはありません。 | WhatsAppで共有
  • 非常に長い(Ultra Long)コンテキストをサポートするため、Transformerに代わる新しいアーキテクチャであるHyenaを採用
    • Hyenaは信号処理に着想を得たシーケンスモデルベース
  • 短い/長いコンテキスト評価でTransformersと競合する初の代替モデル
  • OpenLLMリーダーボードのタスクでLlama-2、Yi、Mistral 7Bと同程度の性能を発揮し、長いコンテキストの要約で優れた性能を示す
  • StripedHyenaは長いシーケンスの学習、微調整、生成において、より高速でメモリ効率が高い
  • 新しいモデル接木(Model Grafting)手法を用いて最適化されており、学習中にモデルアーキテクチャを変更できる
    • StripedHyenaは、TransformerとHyenaのアーキテクチャ構成要素を接木して得られたもので、より長いコンテキストデータで強化されたRedPajamaデータセットを混合して学習させている

まだコメントはありません。

まだコメントはありません。