DeepSeek OCR

(github.com/deepseek-ai)

25 ポイント投稿者 clumsypupil 2025-10-20 | 3件のコメント | WhatsAppで共有

一行要約

文書や対話履歴を画像（視覚トークン）に変換して LLM コンテキストを大幅に削減し（≈7–20×）、再びテキストへ正確に復元（OCR）する光学的コンテキスト圧縮を提案・検証。新しいビジョンエンコーダー（DeepEncoder）と 3B MoE デコーダーを組み合わせ、少ない視覚トークンでも SOTA 級の文書パース性能を示します。

問題設定
• LLM は長さが増すほど Quadratic コストが大きくなります。
• 文書テキストを画像としてレンダリングすると、視覚トークン数はテキストトークンよりはるかに少ない → 画像→テキスト復元がうまくできれば高効率な圧縮が可能。
• OCR は視覚↔テキスト間の自然な圧縮/復元マッピングと定量評価が可能で、優れた実験対象です。

方法概要

アーキテクチャ: DeepEncoder（エンコーダー） + DeepSeek-3B-MoE-A570M（デコーダー）
• DeepEncoder（中核）
• 2 段階で構成:
1. ウィンドウアテンションベースの視覚知覚ブロック（SAM-base 系、~80M） → 高解像度でもアクティブメモリが低い
2. 16× コンボリューション圧縮器でトークン数を大幅削減した後、
3. グローバルアテンションベースの視覚知識ブロック（CLIP-large、最初の Patch 埋め込みを削除）
• マルチ解像度対応（モード）: Tiny（64トークン、512²）、Small（100、640²）、Base（256、1024²）、Large（400、1280²） +
Gundam（n 個の 640² タイル + 1024² グローバルビュー → トークン = n×100+256）、
Gundam-M（1024² タイル + 1280² グローバル）
• 有効トークン（valid）概念: パディングで生じる空白を除外し、実質トークンのみを算定（式で定義）。
• MoE デコーダー: DeepSeek-3B-MoE（12 層）を用いて、エンコーダーが作った圧縮済み視覚トークンから原文テキストを復元。

データエンジン & 学習
• OCR 1.0（従来 OCR）:
• インターネット PDF 3,000 万ページ（約 100 言語）:
• Coarse: fitz で抽出（光学文字認識学習用）
• Fine: 中国語・英語それぞれ 200 万ページを高度なレイアウト/OCR で精密ラベリング（ボックス+テキストのインターリーブ）、追加で Word 文書 300 万ページ
• 自然シーン OCR: 中国語/英語それぞれ 1,000 万サンプル（PaddleOCR ラベル）
• OCR 2.0（複合人工画像パース）:
• チャート（pyecharts/matplotlib）1,000 万画像 → HTML 表としてラベル付け
• 化学式: PubChem SMILES から RDKit レンダリング 500 万
• 平面幾何: Slow Perception 方式でデータ生成（線分辞書など）
• 一般ビジョン: LAION サンプル 1 億をエンコーダー事前学習に混合
• 学習インフラ: 20 ノード（各 8×A100-40G）、パイプライン並列 4 段（エンコーダー 2、デコーダー 2）、DP=40、グローバルバッチ 640。
• テキスト専用 90B tok/day、マルチモーダル 70B tok/day
• 本番データ生成量: 20 ノードで 1 日 3,300 万ページ生成可能

実験結果

コンテキスト光学圧縮（Compression）研究 — Fox ベンチ（英語 100 ページ、600–1300 トークン）
• Small（100 視覚トークン）基準の精度 & 圧縮率（テキストトークン/視覚トークン）:
• 600–700: 98.5%、6.7×
• 700–800: 97.3%、7.5×
• 800–900: 96.8%、8.5×
• 900–1000: 96.8%、9.7×
• 1000–1100: 91.5%、10.6×
• 1100–1200: 89.8%、11.3×
• 1200–1300: 87.1%、12.6×

• 要約: 9–10× 圧縮で 96%+ の精度、10–12× で ≈90%、20× 近辺で ≈60%。
→ 10× 前後は準無損失に近く、それ以上ではレイアウトの複雑さ/低解像度ブラーの影響で段階的に低下。
実運用文書パース（OmniDocBench） — 編集距離（低いほど良い）
• 100 トークン（640²）だけで GOT-OCR2.0（256 トークン）を上回る
• 400 トークン（1280²）で最新 SOTA と同等
• Gundam（<800 トークン）モードで MinerU-2.0（≈6,790 トークン）を超える性能
→ トークン効率が非常に高い（少ない視覚トークンで同等/上回る性能）。
定性的結果（機能）
• Deep parsing:
• チャート → HTML 表、
• 化学式 → SMILES、
• 幾何図形 → 辞書構造（線分/座標/タイプなど）
• 自然画像でも基本的な質疑応答が可能
• 多言語: 約 100 言語の PDF 認識（レイアウトあり/なし出力をプロンプトで制御）

意味
• LLM の超長文コンテキストのコスト問題に対し、視覚トークン経由の圧縮が有力な解法であることを実証。
• 最近の対話/文脈は高解像度、古い履歴は段階的にダウンサイジング（圧縮率↑）するメモリ減衰（memory decay）戦略を提案 → 人間の忘却曲線に似た資源配分。
• トークン予算の最適化: タスク/文書タイプ別に必要トークン量のガイドラインを提示（新聞など超高密度なものには Gundam/M モードを推奨）。

限界 & 今後の課題
• 現状では OCR ベースの PoC に近く、真のデジタル↔光学↔デジタルパイプラインの損失分析には追加研究が必要。
• 10× 超の区間で性能が急落する原因（複雑なレイアウト、低解像度ブラー）の改善が課題。
• フォーマット/ベンチマーク整合性の問題（例: Fox 評価フォーマット差異により実性能が過小評価される可能性）。

キーポイント整理
• DeepEncoder: ウィンドウアテンション（低アクティベーション） → 16× Conv 圧縮 → グローバルアテンション（CLIP）
• マルチ解像度 + タイル+グローバル（Gundam）でメモリ/トークン節約と性能のバランス
• ≈10× 圧縮で ~96% の復元精度を確保 → コンテキストコスト急減への糸口
• OmniDocBench: 100–800 視覚トークン水準で SOTA に近接/上回る
• チャート/化学/幾何/多言語までカバーする実用性

3件のコメント

m00nlygreat 2025-10-21

わあ、すごいですね（笑）。でも、どうせ復元したらそのトークンがそのまま使われるってことじゃないんですか？保存状態のトークンだけ節約できるってことではないんでしょうか？よく分かっていないので、分かりやすく説明してくださる方がいたらお願いします。

luminance 2025-10-21

DeepSeek のアイデアはとても良いですね。

xguru 2025-10-21

DeepSeek OCR - 視覚的コンテキスト圧縮による超高効率OCRモデル
GN+が要約したバージョンとHacker Newsのコメントもあわせて参照してください。

DeepSeek OCR

関連記事

3件のコメント