25 ポイント 投稿者 clumsypupil 2025-10-20 | 3件のコメント | WhatsAppで共有

一行要約

文書や対話履歴を画像(視覚トークン)に変換して LLM コンテキストを大幅に削減し(≈7–20×)、再びテキストへ正確に復元(OCR)する光学的コンテキスト圧縮を提案・検証。新しいビジョンエンコーダー(DeepEncoder)と 3B MoE デコーダーを組み合わせ、少ない視覚トークンでも SOTA 級の文書パース性能を示します。

問題設定
• LLM は長さが増すほど Quadratic コストが大きくなります。
• 文書テキストを画像としてレンダリングすると、視覚トークン数はテキストトークンよりはるかに少ない → 画像→テキスト復元がうまくできれば高効率な圧縮が可能。
• OCR は視覚↔テキスト間の自然な圧縮/復元マッピングと定量評価が可能で、優れた実験対象です。

方法概要

アーキテクチャ: DeepEncoder(エンコーダー) + DeepSeek-3B-MoE-A570M(デコーダー)
• DeepEncoder(中核)
• 2 段階で構成:
1. ウィンドウアテンションベースの視覚知覚ブロック(SAM-base 系、~80M) → 高解像度でもアクティブメモリが低い
2. 16× コンボリューション圧縮器でトークン数を大幅削減した後、
3. グローバルアテンションベースの視覚知識ブロック(CLIP-large、最初の Patch 埋め込みを削除)
• マルチ解像度対応(モード): Tiny(64トークン、512²)、Small(100、640²)、Base(256、1024²)、Large(400、1280²) +
Gundam(n 個の 640² タイル + 1024² グローバルビュー → トークン = n×100+256)、
Gundam-M(1024² タイル + 1280² グローバル)
• 有効トークン(valid)概念: パディングで生じる空白を除外し、実質トークンのみを算定(式で定義)。
• MoE デコーダー: DeepSeek-3B-MoE(12 層)を用いて、エンコーダーが作った圧縮済み視覚トークンから原文テキストを復元。

データエンジン & 学習
• OCR 1.0(従来 OCR):
• インターネット PDF 3,000 万ページ(約 100 言語):
• Coarse: fitz で抽出(光学文字認識学習用)
• Fine: 中国語・英語それぞれ 200 万ページを高度なレイアウト/OCR で精密ラベリング(ボックス+テキストのインターリーブ)、追加で Word 文書 300 万ページ
• 自然シーン OCR: 中国語/英語それぞれ 1,000 万サンプル(PaddleOCR ラベル)
• OCR 2.0(複合人工画像パース):
• チャート(pyecharts/matplotlib)1,000 万画像 → HTML 表としてラベル付け
• 化学式: PubChem SMILES から RDKit レンダリング 500 万
• 平面幾何: Slow Perception 方式でデータ生成(線分辞書など)
• 一般ビジョン: LAION サンプル 1 億をエンコーダー事前学習に混合
• 学習インフラ: 20 ノード(各 8×A100-40G)、パイプライン並列 4 段(エンコーダー 2、デコーダー 2)、DP=40、グローバルバッチ 640。
• テキスト専用 90B tok/day、マルチモーダル 70B tok/day
• 本番データ生成量: 20 ノードで 1 日 3,300 万ページ生成可能

実験結果

  1. コンテキスト光学圧縮(Compression)研究 — Fox ベンチ(英語 100 ページ、600–1300 トークン)
    • Small(100 視覚トークン)基準の精度 & 圧縮率(テキストトークン/視覚トークン):
    • 600–700: 98.5%、6.7×
    • 700–800: 97.3%、7.5×
    • 800–900: 96.8%、8.5×
    • 900–1000: 96.8%、9.7×
    • 1000–1100: 91.5%、10.6×
    • 1100–1200: 89.8%、11.3×
    • 1200–1300: 87.1%、12.6×

    • 要約: 9–10× 圧縮で 96%+ の精度、10–12× で ≈90%、20× 近辺で ≈60%。
    → 10× 前後は準無損失に近く、それ以上ではレイアウトの複雑さ/低解像度ブラーの影響で段階的に低下。

  2. 実運用文書パース(OmniDocBench) — 編集距離(低いほど良い)
    • 100 トークン(640²)だけで GOT-OCR2.0(256 トークン)を上回る
    • 400 トークン(1280²)で最新 SOTA と同等
    • Gundam(<800 トークン)モードで MinerU-2.0(≈6,790 トークン)を超える性能
    → トークン効率が非常に高い(少ない視覚トークンで同等/上回る性能)。

  3. 定性的結果(機能)
    • Deep parsing:
    • チャート → HTML 表、
    • 化学式 → SMILES、
    • 幾何図形 → 辞書構造(線分/座標/タイプなど)
    • 自然画像でも基本的な質疑応答が可能
    • 多言語: 約 100 言語の PDF 認識(レイアウトあり/なし出力をプロンプトで制御)

意味
• LLM の超長文コンテキストのコスト問題に対し、視覚トークン経由の圧縮が有力な解法であることを実証。
• 最近の対話/文脈は高解像度、古い履歴は段階的にダウンサイジング(圧縮率↑)するメモリ減衰(memory decay)戦略を提案 → 人間の忘却曲線に似た資源配分。
• トークン予算の最適化: タスク/文書タイプ別に必要トークン量のガイドラインを提示(新聞など超高密度なものには Gundam/M モードを推奨)。

限界 & 今後の課題
• 現状では OCR ベースの PoC に近く、真のデジタル↔光学↔デジタルパイプラインの損失分析には追加研究が必要。
• 10× 超の区間で性能が急落する原因(複雑なレイアウト、低解像度ブラー)の改善が課題。
• フォーマット/ベンチマーク整合性の問題(例: Fox 評価フォーマット差異により実性能が過小評価される可能性)。

キーポイント整理
• DeepEncoder: ウィンドウアテンション(低アクティベーション) → 16× Conv 圧縮 → グローバルアテンション(CLIP)
• マルチ解像度 + タイル+グローバル(Gundam)でメモリ/トークン節約と性能のバランス
• ≈10× 圧縮で ~96% の復元精度を確保 → コンテキストコスト急減への糸口
• OmniDocBench: 100–800 視覚トークン水準で SOTA に近接/上回る
• チャート/化学/幾何/多言語までカバーする実用性

3件のコメント

 
m00nlygreat 2025-10-21

わあ、すごいですね(笑)。でも、どうせ復元したらそのトークンがそのまま使われるってことじゃないんですか? 保存状態のトークンだけ節約できるってことではないんでしょうか? よく分かっていないので、分かりやすく説明してくださる方がいたらお願いします。

 
luminance 2025-10-21

DeepSeek のアイデアはとても良いですね。

 
xguru 2025-10-21

DeepSeek OCR - 視覚的コンテキスト圧縮による超高効率OCRモデル
GN+が要約したバージョンとHacker Newsのコメントもあわせて参照してください。