常にテキストに賭けよ（2014）

(graydon2.dreamwidth.org)

14 ポイント投稿者 GN⁺ 2025-12-28 | 3件のコメント | WhatsAppで共有

テキストは人類史上最も強力なコミュニケーション技術であり、他のあらゆるメディアを圧倒する表現力と効率性を持つ
絵・映像・音声よりも、抽象的な概念や複雑な思考を精密に伝えるのに最も適した手段である
数千年前の記録まで読めるほど、耐久性と安定性が実証された技術である
保存・伝送コストの面で圧倒的に効率的であり、通信技術の発展の出発点として繰り返し機能してきた
検索・翻訳・要約・協業など、社会的活用の範囲と深さにおいて他の媒体では追随できない

テキストに対する基本的な立場

ビデオ、3D、ゲーム、動的マルチメディアシステムについて質問されるたびに、同じ立場を繰り返してきた
画像、写真、映画、音楽の価値を否定するわけではないが、テキストの優位は絶対的だと考える
テキストを、最も強力で有用かつ効果的なコミュニケーション技術だと位置づける

最も古く安定した技術

話し言葉や手話は人間社会に自然に存在するが、テキストは学習と継承を通じて獲得される技術である
約5000年前の記録も現在読めるほど、時間に耐える耐久性を持つ
石のような物理媒体に刻まれ、人類より長く残る可能性すらある

最も柔軟な表現手段

画像は特定の状況では強力だが、任意の抽象的な文を視覚的に表現することは不可能である
人権の定義のような概念的な文は、絵で置き換えることができない
テキストは精密さと曖昧さの水準を制御しながら、アイデアを伝達できる
文学、哲学、歴史、数学、論理、プログラミング、工学がテキストベースなのは偶然ではない

最も効率的な通信方式

テキストは保存容量と伝送コストにおいて、次元の異なる効率性を持つ
数千バイトのテキストが、簡単なアイコン画像より小さいこともある
光学電信、電信、テレタイプ、初期のコンピュータネットワークに至るまで、常にテキストが先に登場した
音声・画像・映像は、帯域幅が十分に安くなってから初めて登場した
Wikipedia全体をスマートフォンに収められるほどの密度を持つ

社会的に最も有用な技術

1:1、1:N、M:N のコミュニケーションすべてで効率的に機能する
手作業を含む検索と索引化が可能である
翻訳、比較、diff、クラスタリング、校正、要約、フィルタリングなど、アルゴリズム処理に最適化されている
非同期的に利用でき、速度調整も自由である
共同編集、引用、注釈、分岐した議論、要約、レビュー、二次創作まで支援する
図書館やインターネット投稿レベルの社会的・認知的複雑性を代替できる技術は存在しない

結論

だからテキストに対する立場は明確である：常にテキストを先に選ぶべきだ（always pick text first）
昔の上司の言葉を借りれば、常にテキストに賭けるべきだ（always bet on text）
何かをテキストでできるなら、そうすべきだ。テキストはほとんど期待を裏切らない

3件のコメント

roxie 2025-12-29

テキストは確かに安定していますが、直感的かどうかはよく分かりません。

GN⁺ 2025-12-28

Hacker News の意見

この議論の二分法が理解できない
なぜ UTF-8 とピアノ演奏の録音のどちらかを選ばなければならない状況になるのか分からない
まるでこの話題に興奮した人が「Ford vs. Chevy」式の単純な対立でしか語っていないように感じる
みんなテキストが好きなのだから、わざわざ説得しようとしなくていいと思う
テキストの無限の柔軟性と耐久性には同意するが、Bret Victor の仕事を見てからはテキストの限界も感じるようになった
ピアノを学ぶときには即時のフィードバックループがあったが、こうした学習方法はテキストでは実現しにくい
Victor の核心は、このようなフィードバック中心の学習を工学や教育全般にも適用しようという点にある
テキストは依然として重要だが、別の感覚的直観を活用する方法にも大きな可能性があると思う
- 短期的には、テキストより豊かな媒体を実装するにはエンジニアリング難易度がはるかに高い
  Bret Victor のデモは感動的だが、実際の実装には膨大な努力が必要だ
  アイデア自体は素晴らしいが、実現には大きな投資と献身が必要だという点を理解すべきだ
- 科学分野で働いていると、この論点はより明確になる
  データや結果をテキストで説明するのは難しいが、グラフなら一目で多くの情報を伝えられる
  テキストは非同期で扱える点が良いが、人間は本能的に話したり視覚的に表現したりすることを好む
  結局、単一のコミュニケーション手段よりも混合的アプローチのほうが自然だ
- 例えば、電線の山をほどく方法をテキストで説明するのは非効率だ
  子どもはただ見て学び、物理的直観で理解する
  自転車に乗ることのように身体で学ぶ知識は、テキストではほとんど伝えられない
- 私なら「常に記号的表現に賭けろ」と言いたい
  テキストは記号的で、画像は感覚的だ
  Norman Rockwell の絵をテキストで完全に表現するのは不可能だ
  楽譜や Feynman ダイアグラムのようなテキストベースの記号体系は、今でも強力だ
- この議論自体がテキストの優位性を示している
  私は OP の文章を 30 秒で要約できたが、Bret Victor の動画は 54 分あるので、ほとんどの人は見ないだろう
  テキストは効率性と変換可能性の面で、今なお最適の媒体だ
  他の媒体は補助的手段として活用するのがよいと思う
私は自分をテキスト極大主義者と呼んでいる
テキストは人間と機械の自然な接点であり、効率性と透明性のバランス点だ
すべては文字列として保存でき、base64・JSON・HTML・CSS・SQL などで表現できる
結局、業界が追い求めていた銀の弾丸 (silver bullet) は文字列だった
複雑なバイナリ形式は可読性を失い、GZIP 圧縮後は利点もほとんどなくなる
- ただし「効率性・柔軟性・透明性」の三つをすべて得ることはできない
  テキストベースのプロトコルはPostel の法則の問題によって不安定になる
  30% の帯域幅差は決して小さくなく、HTTP3 がバイナリへ移行した理由もそれだ
  base64 を圧縮しても、すでに可読性は失われている
  参考: Robustness principle, Regex 問題, ReDoS
- 「逆シリアライズの CPU コストは無視できる」という主張に対しては、逆に「人が読むためにツールを使うコスト」も無視できる
  どうせ gzip 済み JSON は人間が直接読めないので、ツールを介することは大した問題ではない
- 私は毎日protobufを扱っているが、この形式のバイナリ構造は互換性保証のためのものだ
  人が扱う設定ファイルには text proto や JSON のほうが適している
- 文書保存は DOC や PDF からMarkdown テキストへ移した
  grep も git も変換もすべて簡単だ
  昔の論文は Lotus Word Pro で書いたので今では読めないが、テキストだったなら問題なかったはずだ
- protobuf のテキスト版は base64 や JSON ではない
  大規模システムではテキストファイルが多く流通しているが、透明性はほとんどない
  大規模環境では数ビットの節約が大きなコスト削減につながるため、self-labeled フィールドは排除される
テキストは結局のところバイトの表現にすぎない
しかしテキストに固執する理由は、バイナリ形式の閉鎖性とツール不足にある
CSV に base64 の列が何百万個あっても、適切なツールがなければバイナリより良いわけではない
- テキストは単なるバイトではなく、人間が読める記号体系だ
- テキストは許容されるバイト列に制約を与え、言語進化の圧縮構造を持っている
  標準化のおかげで意味を共有でき、LLM のようなモデルもそれを学習できる
- 冗談ではあるが、バイナリ通信で成り立つ文明もある — バイナー文明
「無作為な Wiki の文を絵で表現してみろ」と言うように、テキストで何もかも置き換えられるわけではない
逆に映画のクリップをテキストで完全に説明することも不可能だ
テキストはあらゆる媒体の上位集合ではない。ただ別種の表現にすぎない
- ただし航空分野は大半がテキストベースの相互作用で運用されている
  例: Flight management system, NOTAM
「テキストは最も古く安定したコミュニケーション技術だ」という主張について
実際には言語そのもののほうがもっと古い技術だ
口承の伝統は世代を越えて知識を伝えてきたし、人間の言語はその中でも最も複雑だ
例えば、オーストラリア先住民のグンディジュマラは 3 万年前の火山噴火を物語として伝えている (Budj Bim)
テキストは世代を越えて情報を歪めずに伝えられるという点で独特だ
結局のところ、「言語に賭けろ」という結論になる
- 生物学的コミュニケーションまで含めるなら、RNA の遺伝暗号が最古の「テキスト」かもしれない
- グンディジュマラの事例は魅力的だが、検証不可能な推定にすぎない
LLM が驚異的なのは、人類が何千年にもわたってあらゆる知識をテキストで記録してきたからだ
画像モデルも、テキストと画像の共有埋め込み空間のおかげで発展した
- ただし、LLM が何十回ものやり取りで欲しい答えを探すのは、効率的というより探索的だ
  便利ではあるが、真に「効果的」なモデルと呼ぶのは難しい
私は言語学者として、絶滅危機言語を記録する際、テキスト (Unicode) が最も持続可能な形式だと信じている
何千年前のギリシャ語やサンスクリット語の文法書も、今なお読める
私たちのチームは PDF で出版したが、内部的には XML で保存した
2000 年後にも読まれることを願っている
- ただ個人的には、10 年前に保存したテキストファイルのほうがむしろ開きにくかった経験がある
  UTF-16、SJIS、EUC などエンコーディングの混乱が多く、一方で PDF や JPEG は今でも完全に開ける
  保存容量が許すなら、画像形式で保管するほうが安全だと感じる
  また Unicode でも表現できない文字が今なお存在する
- 楽譜のように、表現によってはテキストかバイナリかで分けられないものもある
  洞窟壁画はテキストより意図をよく伝える
Future Text Publishing シリーズを見ると、
「テキスト」は本質的に2D の絵だ
コンピュータはテキストを理解せず、ただ数字を処理しているにすぎない
人間がその数字に意味を与え、記号と言語体系を作ったのだ
DNA/RNA は物理的に構成された普遍的な文字体系の例と見なせる
この記事は以前にも何度も HN に投稿されている
2014 年、2015 年、2021 年にもそれぞれ数百件のコメントが付いた
2014 バージョン, 2015 バージョン, 2021 バージョン

cronex 2025-12-30

テキストが本当に優れた表現手段であり、とても重要なのはその通りですが……
すべてをテキストで保存できるわけではないですよね。
テキストは結局のところ圧縮された表現です。私たちが感じられる五感（視覚、聴覚、触覚、味覚、嗅覚）について、社会的に合意された形式に圧縮して表現しているわけです。
しかし、その原型となる対象に関する情報がなければ、いくらテキストでデータを保存しても、あとでその原型となった対象を知らない場合には、そのテキストは意味を失います。
私たちはカセットというものを知っていますが、果たして最近生まれた子どもたちにカセットというテキストだけを見せて、これが何かと聞いたら、ちゃんと答えられる子がどれだけいるでしょうか。いくらカセットの形や機能、動作方式について熱心に説明しておいたとしても、数千年ほど後にそのテキストだけを手がかりに、そのカセットというものを完全に再現できるでしょうか。
そういう場合には、それよりもカセットの写真数枚や図面、カセットを使っている数分の動画のほうが役に立つこともあります。