- テキストは人類史上最も強力なコミュニケーション技術であり、他のあらゆるメディアを圧倒する表現力と効率性を持つ
- 絵・映像・音声よりも、抽象的な概念や複雑な思考を精密に伝えるのに最も適した手段である
- 数千年前の記録まで読めるほど、耐久性と安定性が実証された技術である
- 保存・伝送コストの面で圧倒的に効率的であり、通信技術の発展の出発点として繰り返し機能してきた
- 検索・翻訳・要約・協業など、社会的活用の範囲と深さにおいて他の媒体では追随できない
テキストに対する基本的な立場
- ビデオ、3D、ゲーム、動的マルチメディアシステムについて質問されるたびに、同じ立場を繰り返してきた
- 画像、写真、映画、音楽の価値を否定するわけではないが、テキストの優位は絶対的だと考える
- テキストを、最も強力で有用かつ効果的なコミュニケーション技術だと位置づける
最も古く安定した技術
- 話し言葉や手話は人間社会に自然に存在するが、テキストは学習と継承を通じて獲得される技術である
- 約5000年前の記録も現在読めるほど、時間に耐える耐久性を持つ
- 石のような物理媒体に刻まれ、人類より長く残る可能性すらある
最も柔軟な表現手段
- 画像は特定の状況では強力だが、任意の抽象的な文を視覚的に表現することは不可能である
- 人権の定義のような概念的な文は、絵で置き換えることができない
- テキストは精密さと曖昧さの水準を制御しながら、アイデアを伝達できる
- 文学、哲学、歴史、数学、論理、プログラミング、工学がテキストベースなのは偶然ではない
最も効率的な通信方式
- テキストは保存容量と伝送コストにおいて、次元の異なる効率性を持つ
- 数千バイトのテキストが、簡単なアイコン画像より小さいこともある
- 光学電信、電信、テレタイプ、初期のコンピュータネットワークに至るまで、常にテキストが先に登場した
- 音声・画像・映像は、帯域幅が十分に安くなってから初めて登場した
- Wikipedia全体をスマートフォンに収められるほどの密度を持つ
社会的に最も有用な技術
- 1:1、1:N、M:N のコミュニケーションすべてで効率的に機能する
- 手作業を含む検索と索引化が可能である
- 翻訳、比較、diff、クラスタリング、校正、要約、フィルタリングなど、アルゴリズム処理に最適化されている
- 非同期的に利用でき、速度調整も自由である
- 共同編集、引用、注釈、分岐した議論、要約、レビュー、二次創作まで支援する
- 図書館やインターネット投稿レベルの社会的・認知的複雑性を代替できる技術は存在しない
結論
- だからテキストに対する立場は明確である:常にテキストを先に選ぶべきだ(always pick text first)
- 昔の上司の言葉を借りれば、常にテキストに賭けるべきだ(always bet on text)
- 何かをテキストでできるなら、そうすべきだ。テキストはほとんど期待を裏切らない
3件のコメント
テキストが本当に優れた表現手段であり、とても重要なのはその通りですが……
すべてをテキストで保存できるわけではないですよね。
テキストは結局のところ圧縮された表現です。私たちが感じられる五感(視覚、聴覚、触覚、味覚、嗅覚)について、社会的に合意された形式に圧縮して表現しているわけです。
しかし、その原型となる対象に関する情報がなければ、いくらテキストでデータを保存しても、あとでその原型となった対象を知らない場合には、そのテキストは意味を失います。
私たちはカセットというものを知っていますが、果たして最近生まれた子どもたちにカセットというテキストだけを見せて、これが何かと聞いたら、ちゃんと答えられる子がどれだけいるでしょうか。いくらカセットの形や機能、動作方式について熱心に説明しておいたとしても、数千年ほど後にそのテキストだけを手がかりに、そのカセットというものを完全に再現できるでしょうか。
そういう場合には、それよりもカセットの写真数枚や図面、カセットを使っている数分の動画のほうが役に立つこともあります。
テキストは確かに安定していますが、直感的かどうかはよく分かりません。
Hacker News の意見
この議論の二分法が理解できない
なぜ UTF-8 とピアノ演奏の録音のどちらかを選ばなければならない状況になるのか分からない
まるでこの話題に興奮した人が「Ford vs. Chevy」式の単純な対立でしか語っていないように感じる
みんなテキストが好きなのだから、わざわざ説得しようとしなくていいと思う
テキストの無限の柔軟性と耐久性には同意するが、Bret Victor の仕事を見てからはテキストの限界も感じるようになった
ピアノを学ぶときには即時のフィードバックループがあったが、こうした学習方法はテキストでは実現しにくい
Victor の核心は、このようなフィードバック中心の学習を工学や教育全般にも適用しようという点にある
テキストは依然として重要だが、別の感覚的直観を活用する方法にも大きな可能性があると思う
Bret Victor のデモは感動的だが、実際の実装には膨大な努力が必要だ
アイデア自体は素晴らしいが、実現には大きな投資と献身が必要だという点を理解すべきだ
データや結果をテキストで説明するのは難しいが、グラフなら一目で多くの情報を伝えられる
テキストは非同期で扱える点が良いが、人間は本能的に話したり視覚的に表現したりすることを好む
結局、単一のコミュニケーション手段よりも混合的アプローチのほうが自然だ
子どもはただ見て学び、物理的直観で理解する
自転車に乗ることのように身体で学ぶ知識は、テキストではほとんど伝えられない
テキストは記号的で、画像は感覚的だ
Norman Rockwell の絵をテキストで完全に表現するのは不可能だ
楽譜や Feynman ダイアグラムのようなテキストベースの記号体系は、今でも強力だ
私は OP の文章を 30 秒で要約できたが、Bret Victor の動画は 54 分あるので、ほとんどの人は見ないだろう
テキストは効率性と変換可能性の面で、今なお最適の媒体だ
他の媒体は補助的手段として活用するのがよいと思う
私は自分をテキスト極大主義者と呼んでいる
テキストは人間と機械の自然な接点であり、効率性と透明性のバランス点だ
すべては文字列として保存でき、base64・JSON・HTML・CSS・SQL などで表現できる
結局、業界が追い求めていた銀の弾丸 (silver bullet) は文字列だった
複雑なバイナリ形式は可読性を失い、GZIP 圧縮後は利点もほとんどなくなる
テキストベースのプロトコルはPostel の法則の問題によって不安定になる
30% の帯域幅差は決して小さくなく、HTTP3 がバイナリへ移行した理由もそれだ
base64 を圧縮しても、すでに可読性は失われている
参考: Robustness principle, Regex 問題, ReDoS
どうせ gzip 済み JSON は人間が直接読めないので、ツールを介することは大した問題ではない
人が扱う設定ファイルには text proto や JSON のほうが適している
grep も git も変換もすべて簡単だ
昔の論文は Lotus Word Pro で書いたので今では読めないが、テキストだったなら問題なかったはずだ
大規模システムではテキストファイルが多く流通しているが、透明性はほとんどない
大規模環境では数ビットの節約が大きなコスト削減につながるため、self-labeled フィールドは排除される
テキストは結局のところバイトの表現にすぎない
しかしテキストに固執する理由は、バイナリ形式の閉鎖性とツール不足にある
CSV に base64 の列が何百万個あっても、適切なツールがなければバイナリより良いわけではない
標準化のおかげで意味を共有でき、LLM のようなモデルもそれを学習できる
「無作為な Wiki の文を絵で表現してみろ」と言うように、テキストで何もかも置き換えられるわけではない
逆に映画のクリップをテキストで完全に説明することも不可能だ
テキストはあらゆる媒体の上位集合ではない。ただ別種の表現にすぎない
例: Flight management system, NOTAM
「テキストは最も古く安定したコミュニケーション技術だ」という主張について
実際には言語そのもののほうがもっと古い技術だ
口承の伝統は世代を越えて知識を伝えてきたし、人間の言語はその中でも最も複雑だ
例えば、オーストラリア先住民のグンディジュマラは 3 万年前の火山噴火を物語として伝えている (Budj Bim)
テキストは世代を越えて情報を歪めずに伝えられるという点で独特だ
結局のところ、「言語に賭けろ」という結論になる
LLM が驚異的なのは、人類が何千年にもわたってあらゆる知識をテキストで記録してきたからだ
画像モデルも、テキストと画像の共有埋め込み空間のおかげで発展した
便利ではあるが、真に「効果的」なモデルと呼ぶのは難しい
私は言語学者として、絶滅危機言語を記録する際、テキスト (Unicode) が最も持続可能な形式だと信じている
何千年前のギリシャ語やサンスクリット語の文法書も、今なお読める
私たちのチームは PDF で出版したが、内部的には XML で保存した
2000 年後にも読まれることを願っている
UTF-16、SJIS、EUC などエンコーディングの混乱が多く、一方で PDF や JPEG は今でも完全に開ける
保存容量が許すなら、画像形式で保管するほうが安全だと感じる
また Unicode でも表現できない文字が今なお存在する
洞窟壁画はテキストより意図をよく伝える
Future Text Publishing シリーズを見ると、
「テキスト」は本質的に2D の絵だ
コンピュータはテキストを理解せず、ただ数字を処理しているにすぎない
人間がその数字に意味を与え、記号と言語体系を作ったのだ
DNA/RNA は物理的に構成された普遍的な文字体系の例と見なせる
この記事は以前にも何度も HN に投稿されている
2014 年、2015 年、2021 年にもそれぞれ数百件のコメントが付いた
2014 バージョン, 2015 バージョン, 2021 バージョン