3 ポイント 投稿者 GN⁺ 2025-10-24 | 1件のコメント | WhatsAppで共有
  • 最近公開された DeepSeek-OCR論文 は、大規模言語モデル(LLM)がテキストの代わりに 画像ピクセル を直接入力として受け取り学習できる可能性を探っている
  • このアプローチは、従来の OCR(光学文字認識) 段階を省略し、視覚情報をそのままモデルに渡す方式を提案している
  • Karpathyはこの論文に言及し、ピクセル入力がテキストトークンよりも豊かな文脈 を提供し得るのかという疑問を提起した
  • このアイデアは マルチモーダルAI の発展方向とつながっており、言語モデルが視覚的理解能力を内在化できるかを実験的に探っている
  • この議論は、今後の LLMの入力構造と学習パラダイム を再定義し得る重要な研究の流れとして評価されている

DeepSeek-OCR論文の中核概念

  • DeepSeek-OCRは、既存のテキストベース入力の代わりに 文書画像のピクセルデータを直接処理 する大規模言語モデルの構造を提案している
    • 従来のOCRシステムは、画像からテキストを抽出してからそれを言語モデルに渡すが、この過程で 文字の形状、レイアウト、視覚的文脈 が失われる
    • DeepSeek-OCRはこうした損失を減らすため、ピクセルレベルの視覚情報 をそのままモデル入力として用いる
  • モデルは、画像内の文字、表、数式、図表など多様な視覚要素を同時に理解できるよう設計されている
    • これにより、単純なテキスト認識だけでなく 文書構造の理解と意味推論 まで実行可能になる

Karpathyの問題提起

  • Karpathyは自身のTwitterスレッドで「ピクセルはテキストより良い入力なのか?」という問いを投げかけ、この論文に言及した
    • 彼は、LLMがテキストトークンだけで学習する現在の方式は 情報損失 を招く可能性があると指摘した
    • 特に、言語モデルが視覚的文脈を直接学習できるなら、OCR段階を省略した統合型の学習構造 が可能になると述べた
  • Karpathyは、このアプローチが モデルの汎化能力マルチモーダル理解力 を高める潜在力を持つと評価している
    • ただし、ピクセル入力は計算コストが大きく、大規模データセットの構築が難しいという 実用上の限界 も併せて指摘した

技術的な意味と潜在的影響

  • ピクセルベースの入力は、テキストベース入力より 情報密度が高く、視覚的文脈を保持 できるという利点がある
    • たとえば、表や数式を含む文書では、テキスト変換の過程で構造情報が失われるが、ピクセル入力ならそれをそのまま維持できる
  • 一方で、ピクセル入力には モデルパラメータ数の増加学習コストの上昇推論速度の低下 といった問題が伴う
    • そのため、実際の応用では テキストとピクセルのハイブリッドアプローチ が現実的な代替案として挙げられている
  • この議論は、LLMが単なる言語理解を超えて 視覚的・空間的な認識能力 を内在化できるかどうかをめぐる実験的探究として評価されている

産業的示唆

  • 文書処理、金融、法律、医療など 複雑な文書構造を扱う産業分野 において、DeepSeek-OCRのアプローチは大きな意味を持つ
    • たとえば、スキャンされた契約書や請求書の視覚的配置をそのまま理解するAIシステムの構築が可能になる
  • Karpathyの議論は、AIの入力形式に対する根本的な再検討 を促し、今後のLLM設計の方向性に影響を与える可能性が高い
  • ピクセル入力ベースのLLMは、OCR技術の代替または統合 につながる可能性があり、マルチモーダルAI研究の新たな転換点として注目されている

1件のコメント

 
GN⁺ 2025-10-24
Hacker Newsの意見
  • ピクセルではなく percel のことだ。ピクセルは画像上の点だが、percel は 知覚情報の単位 であり、音や感覚、さらには思考のトークンまで含められる
    人間の場合、複数の感覚が結び付いた percel を認識しており、ニューラルネットワーク(特に LLM)は percel を個別に処理するのではなく、隣接する percel の文脈(context) の中でまとめて扱う

    • このアイデアで研究費の提案書を書いたことがある。ML研究者 からは実用性に欠けると酷評されたが、神経科学者 は強く支持してくれた
      学際研究の潜在力は大きいのに、既存の枠組みに合わないという理由で資金支援を受けにくい現実が残念だ
    • この概念があまりにも興味深くて調べてみたが、資料が見つからない。もしかしてご自身で作った 新語 なのか、それとも参照した論文や研究があるのか気になる
    • 結局のところ 潜在空間(latent space) の概念に似ているのではないかと思う。関連するベクトルがまとまっている構造という点で近い
    • percel をベクトルで表すなら、知覚モード(視覚、聴覚など) ごとに次元を分ける形で潜在空間にマッピングする必要がありそうだ
    • 冗談だが、percel の代わりに toxel と呼びたくなる
  • トークナイザーを殺せ(Kill the tokenizer)」は過激だが根本的な提案だ
    トークナイズは言語を定量化しようとする その場しのぎの hack にすぎず、言語の本質を歪めている
    ピクセルのほうがより強力な表現単位になりうるという発想は奇妙に聞こえるが、誰かが新しいアプローチを試さなければならない

    • 私は文章を読むとき、テキストを視覚的にも聴覚的にも同時に処理している
      だから 視覚ベースの入力 は自然な進化の結果のように感じられる
      もしテキストをレンダリングして OCR で読む代わりに、TTS の音声サンプルをエンコード するなら、ピクセルより効率的かもしれない。もちろん解像度やサンプルレート次第だが
    • Meta の Byte Latent Transformer はトークナイザーの置き換えを狙っていたが、結局あまり注目されなかった
    • だとすると、生成時には何でデコードするのかが疑問だ。トークンは単なる視覚表現以上 の意味を持つので、単にテキスト画像を生成するだけでは不十分だ
    • テキストは 情報密度が非常に高い。だから入力として依然として効率的だ
    • 私にもよく分からない。テキストそのものより、その 画像 のほうが優れているというのは本当に成り立つのか。いっそ画面全体を撮ってカメラ学習までさせようと言っているように聞こえる
  • 関連する興味深い研究として、Lex Flagel らが DNA 配列データを画像に変換して CNN に学習させた論文がある
    その結果、従来のテキストベース分析で得られていた 遺伝学的測定値 を CNN が再現できた
    論文リンク

  • 最近の議論の核心は、私たちが言語を機械に表現するときに用いている 損失のある抽象化(lossy abstraction) への自覚だ
    トークナイズはその一つにすぎず、ピクセルや音声信号もまた別の近似にすぎない
    こうした実験の本当の価値は、現在のアーキテクチャの設計前提 を検証することにある
    マルチモーダルのアラインメントを学習するアプローチは、より良い 潜在構造訓練方法 を発見できるかもしれず、それが既存のテキストエンコーダの改善につながる可能性がある
    特に単語境界が曖昧な言語では、代替エンコーディング方式 が大きな助けになるかもしれない

  • 論文でいう「情報圧縮 → 短いコンテキストウィンドウ → 効率向上」は興味深いが、
    文字サイズやフォント、間隔が変わると、かえって 圧縮率が悪化する のではないかという疑問がある

  • Karpathy の主張に同意する。
    テキストトークンの利点の一つは、入力方式(QWERTY キーボード)に対する 内在的な理解 を学習できる点だ
    例えば「Hello」と「Hwllo」は、キーボード上でキーが隣接しているため意味的に近いものとして認識される

    • ピクセルベース入力で AI が読めるようになれば、「HWLLO」や「H3LL0」のような変形も 視覚的類似性 によって近いものとして認識できるはずだ
      より多くの学習は必要だろうが、最終的には 一般化された認識能力 を得られる
    • 私は typo learning に共感する。関連して 私の動画 でも扱った
      画像でもタイプミスを生成して学習させることは可能なので、大きな問題ではないと思う
  • 自分自身を思い浮かべると、頭の中では 単語の流れ が聞こえる
    ページや画像ではなく、音になった単語 が連なっている感覚だ

  • 現在のトークナイズは非効率かもしれない。言語はすでに高度な 圧縮構造 を持っているが、
    潜在空間にはもっと良い表現方法が存在する可能性がある

    • 業界でも トークナイザーの限界 はよく知られている。しかし、それを置き換える スケーラブルな方式 を実際に実装するのは非常に難しい
    • 画像モデルはより 大きな単位のトークン を使う。テキストでも n-gram ベースの大きなトークン辞書を作ることはできるが、
      現在の LLM アーキテクチャは 大きすぎる出力分布 を扱うには非効率的だ
  • まだこのアプローチが実用的になるには遠いと感じる。
    ChatGPT が「画像で可視化してみましょうか?」と提案するたびに、結果は hallucination だらけだ

    • ただし 画像生成画像入力 はまったく別の問題だ
      ここで言っているのは、テキストを画像に変換して LLM に入力することであって、画像を生成することではない
  • 最近の関連議論としては
    DeepSeek-OCR を Nvidia Spark で動かした事例
    DeepSeek OCR プロジェクト がある。
    どちらも 2025 年 10 月に活発に議論されていた