- Qwen2.5-1Mは、コンテキスト長を最大1Mトークンまでサポートする高性能なオープンソースモデルで、2か月前に公開されたQwen2.5-Turboを改良したもの
- 2つのチェックポイントを公開: Qwen2.5-7B-Instruct-1M と Qwen2.5-14B-Instruct-1M
- Qwenモデルとして初めて1Mトークンのコンテキストをサポート
- 推論フレームワークを公開: vLLMベースの最適化された推論フレームワークを提供。スパースアテンション技法を統合し、1Mトークン入力を 3〜7倍高速に処理
- 技術レポートを公開: 学習および推論フレームワークの設計、実験結果に関する詳細な技術レポートを共有
モデル性能
長文コンテキストタスク
- Passkey Retrieval 評価: 1Mトークン文書から情報を正確に抽出。Qwen2.5-7Bモデルではわずかな誤りが発生し、Qwen2.5-14Bは高い精度を維持
- 複雑なタスク評価:
- RULER、LV-Eval、LongbenchChat などで Qwen2.5-1M モデルは 128K モデルより優れた性能
- 特に Qwen2.5-14B は GPT-4o-mini と比較しても全体的に高い性能
短文コンテキストタスク
- 短文タスクでも Qwen2.5-1M モデルは 128K バージョンと同等の性能を維持
- GPT-4o-mini に近い短文タスク性能を示しつつ、最大8倍長いコンテキストをサポート
コア技術
長文コンテキスト学習
- 4K から 256K へコンテキスト長を段階的に拡張
- RoPE ベースの調整、段階的学習および強化学習を適用
- Dual Chunk Attention(DCA) 技法により 1M トークンコンテキストへの拡張をサポート
- DCA は追加学習なしでも長文で高い精度を維持
スパースアテンション
- MInference ベースのスパースアテンションを導入
- Chunked Prefill 統合: メモリ使用量を 96.7% 削減
- Length Extrapolation 統合: DCA と組み合わせて精度と推論効率を向上
- Sparsity Refinement on Long Sequences: 最適化されたスパース化構成を導入し、長文での性能低下を最小化
- 結果として、1M トークン長で 3.2倍〜6.7倍の推論速度向上
ローカル環境に Qwen2.5-1M をデプロイする
システム要件
- CUDA 12.1/12.3、Python 3.9〜3.12
- VRAM 要件:
- Qwen2.5-7B: 120GB 以上
- Qwen2.5-14B: 320GB 以上
インストールと実行
- vLLM リポジトリをクローンしてインストール
- OpenAI 互換 API サービスを起動
- Curl または Python でモデルと対話可能
今後の方向性
- より効率的な学習、モデルアーキテクチャ、および推論手法を研究中
- 短い文脈と長い文脈の両方で優れた性能を目指して開発
- 長文コンテキストモデルの実用的な活用可能性をさらに拡大していく計画
3件のコメント
ローカル環境でも韓国語がうまく動くでしょうか
2023-08-03 Alibaba、オープンソースAIモデル QWEN を公開
2024-04-25 Qwen1.5-110B : アリババのオープンソースLLM Qwen1.5シリーズ初の100B+モデル
2024-06-07 Alibaba、Qwen 2 モデルを公開
2024-09-19 Qwen2.5 - 複数の基盤モデルを公開
2024-11-28 QwQ - ChatGPT o1に類似したアリババの推論LLM
2024-12-24 Qwenの新しい視覚推論モデル QvQ 使用レビュー
Hacker Newsのコメント
AIコーディングでは、非常に大きなコンテキストウィンドウは実際にはあまり有用ではない。およそ25〜30kトークンを超えて入力すると、モデルが混乱し始める
Ollama にはコンテキストウィンドウの長さを制御する
num_ctxパラメータがあり、デフォルト値は 2048メモリ中心コンピューティングの最新技術(SOTA)についての議論
128K を超えるコンテキスト長を持つ最初のローカル実行可能モデルが、1M に一気に増えたのか確認したい
Mac で長いプロンプトをうまく実行した人の意見を聞きたい
1M コンテキストウィンドウを持つ API専用モデルが11月にリリースされた
ネイティブなコンテキスト長についてのうわさは聞いたが、実際に 1M のコンテキスト長なのかはよく分からない
皆がコンテキストウィンドウをより大きくしようとしているが、出力についても考える必要がある