4 ポイント 投稿者 GN⁺ 2025-01-29 | 3件のコメント | WhatsAppで共有
  • Qwen2.5-1Mは、コンテキスト長を最大1Mトークンまでサポートする高性能なオープンソースモデルで、2か月前に公開されたQwen2.5-Turboを改良したもの
  • 2つのチェックポイントを公開: Qwen2.5-7B-Instruct-1M と Qwen2.5-14B-Instruct-1M
    • Qwenモデルとして初めて1Mトークンのコンテキストをサポート
  • 推論フレームワークを公開: vLLMベースの最適化された推論フレームワークを提供。スパースアテンション技法を統合し、1Mトークン入力を 3〜7倍高速に処理
  • 技術レポートを公開: 学習および推論フレームワークの設計、実験結果に関する詳細な技術レポートを共有

モデル性能

長文コンテキストタスク

  • Passkey Retrieval 評価: 1Mトークン文書から情報を正確に抽出。Qwen2.5-7Bモデルではわずかな誤りが発生し、Qwen2.5-14Bは高い精度を維持
  • 複雑なタスク評価:
    • RULER、LV-Eval、LongbenchChat などで Qwen2.5-1M モデルは 128K モデルより優れた性能
    • 特に Qwen2.5-14B は GPT-4o-mini と比較しても全体的に高い性能

短文コンテキストタスク

  • 短文タスクでも Qwen2.5-1M モデルは 128K バージョンと同等の性能を維持
  • GPT-4o-mini に近い短文タスク性能を示しつつ、最大8倍長いコンテキストをサポート

コア技術

長文コンテキスト学習

  • 4K から 256K へコンテキスト長を段階的に拡張
  • RoPE ベースの調整、段階的学習および強化学習を適用
  • Dual Chunk Attention(DCA) 技法により 1M トークンコンテキストへの拡張をサポート
  • DCA は追加学習なしでも長文で高い精度を維持

スパースアテンション

  • MInference ベースのスパースアテンションを導入
  • Chunked Prefill 統合: メモリ使用量を 96.7% 削減
  • Length Extrapolation 統合: DCA と組み合わせて精度と推論効率を向上
  • Sparsity Refinement on Long Sequences: 最適化されたスパース化構成を導入し、長文での性能低下を最小化
  • 結果として、1M トークン長で 3.2倍〜6.7倍の推論速度向上

ローカル環境に Qwen2.5-1M をデプロイする

システム要件

  • CUDA 12.1/12.3、Python 3.9〜3.12
  • VRAM 要件:
    • Qwen2.5-7B: 120GB 以上
    • Qwen2.5-14B: 320GB 以上

インストールと実行

  1. vLLM リポジトリをクローンしてインストール
  2. OpenAI 互換 API サービスを起動
  3. Curl または Python でモデルと対話可能

今後の方向性

  • より効率的な学習、モデルアーキテクチャ、および推論手法を研究中
  • 短い文脈と長い文脈の両方で優れた性能を目指して開発
  • 長文コンテキストモデルの実用的な活用可能性をさらに拡大していく計画

3件のコメント

 
yangeok 2025-01-30

ローカル環境でも韓国語がうまく動くでしょうか

 
GN⁺ 2025-01-29
Hacker Newsのコメント
  • AIコーディングでは、非常に大きなコンテキストウィンドウは実際にはあまり有用ではない。およそ25〜30kトークンを超えて入力すると、モデルが混乱し始める

    • この問題は gpt-4o、Sonnet、DeepSeek などで発生する
    • 多くのユーザーがこの問題を報告しており、これに対処するための専用ヘルプページまで作られている
    • 大きなコンテキストは、「低価値」のコンテキストが多い特定の作業では有用かもしれないが、コーディングでは問題を引き起こす可能性がある
  • Ollama にはコンテキストウィンドウの長さを制御する num_ctx パラメータがあり、デフォルト値は 2048

    • macOS で MLX を使って実行するコツがある
  • メモリ中心コンピューティングの最新技術(SOTA)についての議論

    • AIのメモリコストを下げるには、新しいパラダイムが必要かもしれない
    • DRAM と光インターコネクトを接続する方法があるかもしれない
    • シーケンスに依存しないトランスフォーマーのような機能を持つものがあるのか気になる
  • 128K を超えるコンテキスト長を持つ最初のローカル実行可能モデルが、1M に一気に増えたのか確認したい

  • Mac で長いプロンプトをうまく実行した人の意見を聞きたい

  • 1M コンテキストウィンドウを持つ API専用モデルが11月にリリースされた

  • ネイティブなコンテキスト長についてのうわさは聞いたが、実際に 1M のコンテキスト長なのかはよく分からない

    • llama3 8b のようなモデルはより大きなコンテキストを持つと言われるが、実際にはそうではない
    • 16GB VRAM では 8k を超えるのが難しい
  • 皆がコンテキストウィンドウをより大きくしようとしているが、出力についても考える必要がある

    • 何千行ものコードを生成したいが、それについて何かコツがあるのか知りたい