Qwen2.5-1M - 100万トークンまで対応するQwenをセルフホストでデプロイする

(qwenlm.github.io)

4 ポイント投稿者 GN⁺ 2025-01-29 | 3件のコメント | WhatsAppで共有

Qwen2.5-1Mは、コンテキスト長を最大1Mトークンまでサポートする高性能なオープンソースモデルで、2か月前に公開されたQwen2.5-Turboを改良したもの
2つのチェックポイントを公開: Qwen2.5-7B-Instruct-1M と Qwen2.5-14B-Instruct-1M
- Qwenモデルとして初めて1Mトークンのコンテキストをサポート
推論フレームワークを公開: vLLMベースの最適化された推論フレームワークを提供。スパースアテンション技法を統合し、1Mトークン入力を 3〜7倍高速に処理
技術レポートを公開: 学習および推論フレームワークの設計、実験結果に関する詳細な技術レポートを共有

モデル性能

長文コンテキストタスク

Passkey Retrieval 評価: 1Mトークン文書から情報を正確に抽出。Qwen2.5-7Bモデルではわずかな誤りが発生し、Qwen2.5-14Bは高い精度を維持
複雑なタスク評価:
- RULER、LV-Eval、LongbenchChat などで Qwen2.5-1M モデルは 128K モデルより優れた性能
- 特に Qwen2.5-14B は GPT-4o-mini と比較しても全体的に高い性能

短文コンテキストタスク

短文タスクでも Qwen2.5-1M モデルは 128K バージョンと同等の性能を維持
GPT-4o-mini に近い短文タスク性能を示しつつ、最大8倍長いコンテキストをサポート

コア技術

長文コンテキスト学習

4K から 256K へコンテキスト長を段階的に拡張
RoPE ベースの調整、段階的学習および強化学習を適用
Dual Chunk Attention(DCA) 技法により 1M トークンコンテキストへの拡張をサポート
DCA は追加学習なしでも長文で高い精度を維持

スパースアテンション

MInference ベースのスパースアテンションを導入
Chunked Prefill 統合: メモリ使用量を 96.7% 削減
Length Extrapolation 統合: DCA と組み合わせて精度と推論効率を向上
Sparsity Refinement on Long Sequences: 最適化されたスパース化構成を導入し、長文での性能低下を最小化
結果として、1M トークン長で 3.2倍〜6.7倍の推論速度向上

ローカル環境に Qwen2.5-1M をデプロイする

システム要件

CUDA 12.1/12.3、Python 3.9〜3.12
VRAM 要件:
- Qwen2.5-7B: 120GB 以上
- Qwen2.5-14B: 320GB 以上

インストールと実行

vLLM リポジトリをクローンしてインストール
OpenAI 互換 API サービスを起動
Curl または Python でモデルと対話可能

今後の方向性

より効率的な学習、モデルアーキテクチャ、および推論手法を研究中
短い文脈と長い文脈の両方で優れた性能を目指して開発
長文コンテキストモデルの実用的な活用可能性をさらに拡大していく計画

3件のコメント

yangeok 2025-01-30

ローカル環境でも韓国語がうまく動くでしょうか

xguru 2025-01-29

2023-08-03 Alibaba、オープンソースAIモデル QWEN を公開
2024-04-25 Qwen1.5-110B : アリババのオープンソースLLM Qwen1.5シリーズ初の100B+モデル
2024-06-07 Alibaba、Qwen 2 モデルを公開
2024-09-19 Qwen2.5 - 複数の基盤モデルを公開
2024-11-28 QwQ - ChatGPT o1に類似したアリババの推論LLM
2024-12-24 Qwenの新しい視覚推論モデル QvQ 使用レビュー

GN⁺ 2025-01-29

Hacker Newsのコメント

AIコーディングでは、非常に大きなコンテキストウィンドウは実際にはあまり有用ではない。およそ25〜30kトークンを超えて入力すると、モデルが混乱し始める
- この問題は gpt-4o、Sonnet、DeepSeek などで発生する
- 多くのユーザーがこの問題を報告しており、これに対処するための専用ヘルプページまで作られている
- 大きなコンテキストは、「低価値」のコンテキストが多い特定の作業では有用かもしれないが、コーディングでは問題を引き起こす可能性がある
Ollama にはコンテキストウィンドウの長さを制御する num_ctx パラメータがあり、デフォルト値は 2048
- macOS で MLX を使って実行するコツがある
メモリ中心コンピューティングの最新技術（SOTA）についての議論
- AIのメモリコストを下げるには、新しいパラダイムが必要かもしれない
- DRAM と光インターコネクトを接続する方法があるかもしれない
- シーケンスに依存しないトランスフォーマーのような機能を持つものがあるのか気になる
128K を超えるコンテキスト長を持つ最初のローカル実行可能モデルが、1M に一気に増えたのか確認したい
Mac で長いプロンプトをうまく実行した人の意見を聞きたい
1M コンテキストウィンドウを持つ API専用モデルが11月にリリースされた
ネイティブなコンテキスト長についてのうわさは聞いたが、実際に 1M のコンテキスト長なのかはよく分からない
- llama3 8b のようなモデルはより大きなコンテキストを持つと言われるが、実際にはそうではない
- 16GB VRAM では 8k を超えるのが難しい
皆がコンテキストウィンドウをより大きくしようとしているが、出力についても考える必要がある
- 何千行ものコードを生成したいが、それについて何かコツがあるのか知りたい

Qwen2.5-1M - 100万トークンまで対応するQwenをセルフホストでデプロイする

モデル性能

長文コンテキストタスク

短文コンテキストタスク

コア技術

長文コンテキスト学習

スパースアテンション

ローカル環境に Qwen2.5-1M をデプロイする

システム要件

インストールと実行

今後の方向性

関連記事

3件のコメント

Hacker Newsのコメント