- 現存する最高のSF作家と評価されるテッド・チャンが書いた文章
- ChatGPTは情報を圧縮して保存するため、原本ではなくぼやけたJPEGを見ているのに似ているという話
- 2013年、Xeroxのコピー機が図面をコピーする際に数字が別の数字に置き換わることが発見された
- コピーのためにデジタル化する過程で、JBIG2の非可逆圧縮により似た数字を1つだけ保存して再利用したことで発生した問題
- この事例とOpenAIのChatGPTが明白に類似していると見るのは難しいが、ウェブの情報を保存する際にも似たようなシナリオが起こりうる
- インターネットへのアクセス権を失うと想像してみると
- ウェブ上のすべてのテキストを圧縮して複製を作りたい
- しかし保存に使える容量がその規模の1%しかなく、圧縮しなければならないため非可逆アルゴリズムを使うことになるだろう
- これですべてを検索できるようになるが、テキストがあまりに圧縮されすぎて正確な引用文は検索できない
- ChatGPTはウェブ上のすべてのテキストのぼやけたJPEGだと考えること
- JPEGのようにウェブ上の多くの情報を保持するが、完全に同一のビット列を保持するわけではない
- あなたが得るものはすべて近似値である
- しかしこの近似値がChatGPTの生み出す卓越した文法的テキストの形で提供されるため、一般には受け入れられる
- この非可逆圧縮はChatGPTの機能を理解するための唯一の方法ではない
- しかしChatGPTが生み出す「ハルシネーション」や、真実についての的外れな答えを理解する方法でもある
- こうしたハルシネーションは、Xeroxのコピー機が生み出した誤った数字のように、本物だと見分けるには原本と比較しなければならないほどもっともらしい
- 大規模言語モデルはテキストの統計的規則性を識別する
- 「供給が少ない」のようなフレーズは「価格が上昇する」という文の近くに現れる
- こうした関係を数多く見てきたチャットボットは、供給不足による影響について質問されると価格上昇に関する答えを返すようになる
- LLM(大規模言語モデル)が経済用語間の無数の相関関係を集めたからといって、実際に経済理論を理解していると言えるだろうか?
- ChatGPTのようなモデルは可逆圧縮を行わない。つまり、元のテキストを正確に再構成しない
- GPT-3は2桁の数どうしの加減算ではほぼ常に正解するが、数字が5桁になると精度は大きく下がって10%に落ちる
- ウェブ上には
245 + 821のようなテキストを含むページが多くないためだ
- 膨大な量の情報を集約しても、「算術の原理」さえ導き出せなかった
- ChatGPTが可逆アルゴリズムだったらどうなるか想像してみよう
- そうであれば、関連するウェブページから一部をそのまま引用して質問に答えるだろう
- おそらく私たちは、そのソフトウェアは既存の検索エンジンより少し改善された程度だと考え、今ほど感銘を受けないだろう
- ChatGPTがウェブの資料を一字一句そのまま引用する代わりに言い換えて表現するという事実は、学生が読んだ内容をそのまま口にするのではなく自分の言葉で考えを表現しているように見せる
- それがChatGPTが資料を理解しているという幻想を生み出す
- LLMには多くの用途が提案されているが、ぼやけたJPEGだと考えると向き不向きを評価できる
- 大規模言語モデルは既存の検索を置き換えられるだろうか?
- LLMに確信を持つには、彼らがプロパガンダや陰謀論を聞いていないことを知る必要がある(おかしなデータで学習していないかどうか)
- 私たちは、JPEGがウェブの正しいセクションを捉えていることを知る必要がある
- しかしLLMが私たちの望む情報だけを含んでいたとしても、依然としてぼやけの問題は残る
- 許容できるぼやけの種類があるとすれば、それは情報を別の言葉で言い換えることだ
- そして事実を探すときには、決して許容できない明白な捏造のようなぼやけもある
- 許容できないぼやけを取り除きつつ、許容できるぼやけを維持することが技術的に可能かどうかは確かではないが、近いうちに分かることを期待している
- LLMが捏造しないよう制限できるとしても、それをウェブコンテンツの生成に使うべきだろうか?
- それは、私たちの目標がすでにウェブで利用可能な情報を再包装することにある場合にのみ意味がある
- こうした仕事のために存在する会社もある。いわゆるコンテンツファームだ
- おそらくLLMのぼやけは、彼らにとって著作権侵害を避ける方法として有用だろう
- しかし一般論として言えば、コンテンツファームにとって良いことは、情報を探している人々にとって良いことではないと言いたい
- こうした再包装が増えるにつれ、現在オンラインで何かを探すことはより難しくなっている
- LLMによって生成されたテキストがウェブにさらに多く公開されるほど、ウェブはよりぼやけたバージョンになっていく
- GPT-4についての情報はほとんどないが、推測するなら、OpenAIの人々はこれに必要なテキストを集める際、ChatGPTまたは他のLLMで作られた資料を除外しようと努めただろう
- もしこれが事実なら、LLMと非可逆圧縮に関する類推が正しいかどうかを確認することになる
- JPEGを繰り返し圧縮するとさらに多くの情報が失われるため、より多くの圧縮アーティファクトが生じる
- 昔、コピーしたものをさらにコピーすると画質が悪くなるのと同じだ
- LLMは人間がオリジナルの創作物を生み出すのを助けられるだろうか?
- 私の意見では、原本ではなくぼやけたコピーから始めることは、オリジナルを生み出すうえで良い作業ではない
- あなたが作家なら、独創的なものを書く前に、独創的でない作品をたくさん書くだろう
- 独創的でない作業に費やした時間と努力は無駄にはならない
- むしろそれこそが、最終的にあなたが独創的なものを創造できるようにしてくれる
- 正しい言葉を選び、文章を並べ替えて読みやすくするために費やした時間は、散文がどのように意味を伝えるかを教えてくれる
- 学生にエッセイを書かせるのは、単に資料に対する理解度を試す方法ではない
- それは、彼らに自分の考えを明確に表現する経験をさせることだ
- 将来、世界についての自分自身の経験だけをもとに良い文章を書けるAIを構築できる可能性はある
- それは重要な瞬間になるだろうが、それを達成する日は私たちの予測の範囲を超えている
- インターネットへのアクセス権がなく、容量の限られたサーバーに複製を保存しなければならない場合、ChatGPTのような大規模言語モデルは良い解決策になりうる
- 「しかし私たちはインターネットへのアクセス権を失っていない。オリジナルがあるのに、なぜぼやけたJPEGを使わなければならないのか」?
26件のコメント
5桁以上の加減算を繰り返して質問してみたら、ずっと正確な答えを返してくるのに
いったいどこで精度が悪くなるのだろうか?
テッド・チャンが見落としているのは、これまでインターネット探索の主要な手段として使われてきたGoogle検索が、この数年で質の低いウェブコンテンツの大量生産の影響を受け、品質が大きく低下した状態にあるという点です。
たとえChatGPTがぼやけたJPEGだとしても、その代替がノイズだらけのGoogle検索しかないのだとすれば、今この瞬間に情報を得るための最善の手段としてChatGPTを使うのは合理的かもしれません。
「私たちはインターネットへのアクセス権を失っていない」と言いましたが、まさにこの部分が誤った前提です。ウェブの巨大なスケールを考えれば、探索能力を失うことは、すなわちアクセス権を失うことと同じ意味だと私は思います。私が欲しい情報を見つけられないのに、アクセス権があることに何の意味があるのでしょうか。
つまり、「オリジナル」がないのと同じような状況に近づいており、それこそが今、人々が実感している「ぼやけたJPEGを使わなければならない理由」なのだと思います。
下の lightgreenmaesil さんが残したコメントは、テッド・チャンの観点と、その反対側にいる人たちとの違いを示していると思います。
「まず容量ももっと大きいし、見るのにもずっと時間がかかりますよね。写真だと時間は少し実感しにくいかもしれませんが、本一冊と、その本一冊の核心的な内容を1ページに要約したものだと考えれば、もっと実感できるでしょう。」
YouTube にある映画の15分要約や本の要約のようなものの人気や再生数を見れば、人々がそういうものを好んでいるのは事実です。ショート動画もそうです。しかし、その要約が元の作品を完全に表現できるのかと考えてみると、そうではないと言うのが正しいでしょう。原作を見て感動した人なら、要約で抜け落ちたものを大きく感じるはずですから。
小説家であるテッド・チャンの立場からすれば、ChatGPT や LLM がやっていることは、自分の小説を1〜2ページに要約した文章を見ているような感覚なのだと思います。そして、その短い文章の中にこの小説のすべてが入っていると言う、あるいはそう信じる人たちを見れば、これで本当にいいのかと思うでしょう。
同じように、映画監督や俳優たちは、オリジナルの代わりに15分の映画要約版だけを見る人たちを好むでしょうか。その人たちを自分の作品を見た人だとみなすでしょうか。さらに言えば、ほとんどすべての人が15分の要約を実際の映画よりもむしろ映画らしいものとして認識するようになったら、どうなるでしょうか。そうして、もはや映画を作れなくなったとしたら、15分の要約は何の映画を見て要約すればいいのでしょうか。
映像も文章も、要約して速く圧縮して見るのを好む時代ですが、面白いことに、音楽だけは唯一そのまま残っています。音楽を要約して聴く人や、2倍速で聴く人や、つまらない部分を10秒ずつ飛ばしながら聴く人はいません。
だとすると、今どきの時代精神のように、2倍速や1分の試聴で NewJeans の Ditto を聴いた私は、NewJeans のファンになれるのでしょうか。圧縮して要約して聴いた私も、その曲を聴いたと言えるのでしょうか。違うのでしょうか。それとも関係ないのでしょうか?
テッド・チャン本人も言語モデルを説明する際に、JPEGという非可逆圧縮の比喩を持ち出していたように、たとえオリジナルがあっても圧縮情報は必要です。
そして、言語モデルが自分で作った生成物で再び学習したとしても、情報の損失はほとんどありません。(内部モデルのパラメータに対する更新がほとんど起きません。もともと知っている情報なので、学習効果がないのです。)
最後の質問に対する翻訳は、原文とニュアンスに差があるように思います。翻訳文だけを見て、原文の意図とは異なるコメントが多いようです。
So just how much use is a blurry jpeg, when you still have the original?
原本を持っているとき、ぼやけたJPEGファイルはどれほど役に立つのでしょうか?
私には、RAWファイルを所有しているときに、JPEGの有用性を問う質問に見えます。
「使う理由は何だろう」と解釈すると、RAWがあるのにJPEGなんてなぜ使うのか、という意味に見えてしまうようです。
もちろん現実には、RAWよりJPEGのほうが一般的である理由があるのですから、その観点も含めた質問だと思います。
オープンソースの公式ドキュメントやAWSの公式ドキュメントでさえ、信頼できずに自分で実行して確認したり、ソースコードまで確認しなければならないことがよくあるのに、ChatGPTはなおさらですよね……。情報量が増えるほど、人間がやらなければならないクロスチェックの量が不必要に増えている気がします。
JPEGとオリジナルの違いって見分けられないんじゃないですか?
画像の特性や圧縮率によって異なります。写真を撮る人であれば、JPEGとは別に元データを持っておくことを好みます。後で編集や補正をするとき、JPEGファイルで行うのと元データで行うのとでは、編集できる範囲がかなり違うので。
https://www.keptlight.com/does-size-matter/
この瞬間にも、ほとんどの人間が食べていくためにやっている仕事というのは、まさにそのぼやけたJPEGを作ることなのではないでしょうか。
ChatGPT は本当にすごいですが、あまりにも人間的すぎて、検索や情報伝達にはかえって不向きに感じられます。
オリジナルではなくぼやけたJPEGを見ているのに近い、という点にはとても共感します。たとえば翻訳書を読むとき、訳者の意訳が多く反映されている場合、途中で翻訳がおかしいと感じても、言葉がずっと滑らかにつながっているように思えて、だいたいの文脈は合っている気がすると、そのまま大半はページをめくり続けます(全部読み終えたあとで本当に理解できているかは別問題ですが)。でも、そのおかしいと感じた翻訳がとんでもないものかもしれないので、これは見過ごしていい問題ではないんですよね。こういう翻訳は、ある人にとっては到底受け入れられないものかもしれないし、また別の人にとっては耐えられるレベルかもしれません。
うーん。画質がひどいですね。
もしかすると警告の意味もあるのかもしれません。私自身、仕事でも助言が必要なときでも文章を整えるときでも幅広く使っていますが、明らかにもっともらしいのに間違った回答をすることが確かにあります。しかも、ユーザーがその回答が間違っていると知るためには、その分野についての知識や追加の調査が必要になるのも事実です。意外と、かなり細かく見ないと気づけない誤りも時々あります。(コードを生成したときに、実際には存在しない関数を使うなど)
そうした誤りを見つけるまでは、このAIが私にそのような答え方をするとは正直考えたことがありませんでした。そもそも回答不能だったり、的外れな返答をしたりすることしか想像していなかったのです。
この種の技術への理解が比較的高い人が多いであろうStack Overflowのような場でも、AI回答に関連した摩擦が少しずつ存在していたことを見れば、思ったほどユーザー間で完全な検証は行われていなかったのでしょう。AIが生成したデータの検証には人間の介入が必要で、明らかに労力と知識が要る作業です。そうでなければ、Microsoftも自社AIが出したもっともらしい誤りを見逃さなかったはずです。だからこそ、私たちは当面この技術を道具として活用すべきだと分かっています。しかし、スマートフォンのAIに今日の天気を尋ねるとき、この回答がバグやその他のエラーによって間違っているかもしれないと仮定したことはありません。ChatGPTのようなAIが徐々に汎用AIとして日常生活に密接に発展していったとき、ユーザーがその回答を大きな疑いもなく受け入れてしまう確率は高いのではないでしょうか。
最近は学校でChatGPTなどを使ったエッセイの代筆事例が多くあります。誤りを指摘してもらったり、文章を書くための題材をもらったり、内容を膨らませたりする程度ではなく、問題について考えることもなく無分別にAIの回答を単語だけ少しずつ変えて提出し、高い点数を取る事例が記事にもなりました。自分で調べた資料をもとに自分の考えを問われる場面で、思考も構成も執筆もAIに任せるのは、間違いなく新しいパラダイムです。
AIに限らず、インターネットでは誤った資料が大量に検索に出てくることがよくありますが、それを追加確認なしに事実だと信じる人も多いです。私自身も、一つ一つ検証しながら読まなければ、何気なく誤った情報を受け入れてしまったことがきっと何度もあったはずです。
よくデータの風化などと冗談めかして言いますが、インターネット上で写真がjpgとしてさまざまなサイトを渡り歩き共有される過程で、リサイズや容量圧縮が繰り返されて画質がひどくなることがしばしばあります。真っ白な背景色が真っ青になってしまうことさえあります。
情報の劣化のようなものを懸念しているのではないかと思います。悪貨が良貨を駆逐する、とも言うではありませんか。
すでに画像共有サイトにはAIが生成した絵があふれています。これ自体が悪いわけではありませんが、AIが書いた近似的な記事でインターネットが埋め尽くされ、しかもそれをもとにしたAIが再び記事を生成することを繰り返したら、情報に対する歪みが少しずつ蓄積していくのではないでしょうか。そんなことを考えます。
30年以上SFを読んできて、この10年ほどで読んだSF新作の中では『あなたの人生の物語』を最高だと評価する筋金入りのファンですが、20年以上開発者として働いてきた業界人の観点からすると、反論せざるを得ない話です。
基本的にこの発言は、傲慢と言っていいような観点から出ています。人々は(愚かなので)ChatGPTをはじめとするAIプラットフォームが創造の領域に達したと誤解するだろうが、自分はそうではないと知っているのだから、彼らに真実を伝えなければならない、という観点です。
本当に真実なのは、そうではないということを業界人だけでなく大多数の人々が知っている、ということです。AlphaGo以降、AIが大衆の話題になって久しいです。AIの能力も限界も、みんなある程度は分かっています。今のAI囲碁界では、AlphaGo程度は赤子扱いするほどの強者たちがひしめいていますが、それを衝撃として受け止める人は誰もいません。それがどういう意味を持つのか、どう受け止めるべきかについて、すでに多くを学んでいるからです。
私はテッド・チャンのあの発言を、むしろ大衆に対する無知と偏見から生じた誤りだと見ています。ChatGPTに熱狂する大衆は、それが私たちの知的活動を代替してくれると信じているからそうしているのではありません。それが私たちの知的活動を「補助」してくれるという点を、みんなよく分かっていて、そのように使っています。プロンプトの例がマニュアル化されて共有されています。道具であることを明確に認識していると分かります。
絵を描くAIを、人々はどう受け止めているでしょうか。自分の創作を代わってくれと、魔法のランプのようにこすっているのでしょうか。最近私が見たAI画像の90%ほどは成人向け画像でした。手はうまく描けずにぼやけていると言えばぼやけていますが、その他の部分はきれいで明瞭なだけでした。
言いたいことはたくさんありますが、多すぎるので一言だけ言って終わります。
「キム代理。私があえて助言したいことがあります。それは別のことではなく、Excelファンクション?をあまり使わないでください。便利さがあるなら、危険性は増大します。牛を屠るにはそれなりの刃があり、鶏をさばくのに刃物が必要でしょうか?……私の意見としては、暗算のほうが速いこともあり、もちろん人によって差はありますが、計算機が良いこともあるでしょう。コンピュータは牛をさばく包丁ではないかと思い、意見を申し上げます。」
最後の問いは誤っています。比較対象はぼやけたJPEGではなく、JPEG写真を言葉で要約したものであるべきです。たとえば「舌を出している犬」というテキストと、その実際の写真であるべきでしょう。これも一種の非可逆圧縮です。大半の情報が削除され、テキスト数バイトにまで圧縮されているのですから。しかし、元の写真があるからといって、このような非可逆圧縮に価値がないのかといえば、そうではありません。まず容量も大きいですし、見るのにもより長い時間がかかります。写真だと時間の感覚は少し実感しにくいかもしれませんが、本一冊と、その本一冊の核心的な内容を1ページに要約したものだと考えれば、より実感できるでしょう。
では、ある論文が1本あったとして、その論文の非可逆圧縮である要約版を見る理由はあるのでしょうか。もちろんありますし、場合によっては非常に有用です。ある本が一冊あって、その本のある章で言及された特定の主張に関する要約を使うべき理由――当然あります。見方によっては、人間が学校に行って何十時間もの講義を聞き、それをノートやcheating sheetに要約して整理することも、映像から文章への巨大な非可逆圧縮なのです。学習そのものが非可逆圧縮です。これが役に立たないのでしょうか。
「圧縮」を写真の圧縮にたとえて、まるでごく些細で大きな意味のないことのように書いていますが、実際には圧縮は人間の学習において非常に本質的で、意味のある作業です。写真の場合は圧縮する方法がある程度かなり解明されていますが、言語の圧縮はきわめてnon-trivialで重要なことなのです。
最後の質問に対する答えは
たとえ私たちがGPTを通じて提供される情報が劣化したJPEG版だとしても、
私たちが欲しい情報はたいていコラージュ版であり、このコラージュを構成するためにかかる労力はかなり大きく、
そのコラージュの労力を肩代わりしてくれて、ときには全体的な完成度が自分の手作業より優れているので、
画質の劣化は十分受け入れられるからです
あえて言えば、テッド・チャンの想像力や技術に対する理解を私が評価できる立場ではないかもしれませんが、
全体としてはこの技術の一部の特徴を過大解釈した結果であり、
本当に重要な特徴は見落としているという印象です.
最後の質問に対する答えは、「楽だから」ではないでしょうか?
適切なたとえかは分かりませんが、最近は映画やドラマの一気見のように、オリジナルを圧縮したものに対する満足度が高いのと同じように。
非常に優れた、しかし業界関係者でなければ絶対に理解できない比喩のように思えます。
これをどうすれば、(専門家ぶる人たちを含む)非専門家に理解してもらえるでしょうか。
Super Resolutionはオリジナルより優れている可能性がある
もちろん改善される可能性はありますが、必ずしも良くなるわけではないという点は、記事でも指摘されていませんか?
良くなる可能性があるとは言いましたが、もちろん必ず良くなるわけではありません。ですが、文章では解像度がぼやけることだけを述べていて、逆にもっと明瞭になる可能性は排除していますね。CCTVの画質も改善され、白黒に色を付けることもできていますが、タイトルのJPEGはそういうことをサポートしていませんよね。
画質改善、つまりCCTVの画質を改善することは、ある側面では改善ではありません。人間に画像が改善されたという「感覚」を与えているのです。白黒に色を付けるのも同じです。白黒に色を付けた画像を「生成」することで、人間にカラー画像の「感覚」を与えているわけです。したがって、現在の画像品質向上技術が扱う「改善」は、非常に狭い側面に限って論じられるべき問題です。CCTVの画質改善について、JPEGはそうしたことをサポートしていないと比較するのは、非常に不当な比較です。
コメントありがとうございます。同じ論理でいえば、しかし「ぼやけている」ということも、ある側面では劣化ではなく、劣化したものを「生成」することで「感覚」を与えているわけですから、非常に狭い側面で扱うべき問題であり、ChatGPTの数学力をJPEGの劣化と比較するのもかなり不当だと言えますよね。情報量そのものを増やすときに、わざわざ人間の「感覚」のような話を持ち出す必要はないと思います。元のカラー画像を白黒に圧縮すると容量が減るように、逆に色を付ければビット容量だけでなく情報量そのものが増えるという点では、圧縮というよりむしろ展開、あるいは原本の復元に近いです。原本そのものではないからといって、ぼやけているとするのは、はるかに不当な比較のように思えます。タイトルだけを見ると、DALL-Eも低容量・低解像度のものしか作れず、HDは作れないのだと誤解してしまいそうです。本文のとおり、JPEGは圧縮を繰り返すと一般的に容量が減り、画質が落ちて、ぼやけるほかありませんが、ディープラーニングはデータの少ない数学計算ではぼやけることがあるとしても、逆にむしろ、より明確で正確にうまくできる部分もあるという事実が見過ごされないとよいですね。
おっしゃった内容のうち、私が見落としていた点はひとつもありませんでした。あなたはオリジナルを作っているのに、私が「オリジナルそのものではなく、オリジナルだと感じられるもの」を作っていると言ったので、ひどく腹を立てたのでしょう。そうであろうとなかろうと、それがシンプルな事実なのだから、どうしようもありません。
おっしゃるとおり、私はそれほど怒っているとか、非常に不当だという感情表現はしていませんよね? ただ、テッド・チャンという人が言ったことだというこの記事の見出しを大衆が見て、そのまま見過ごしてしまいそうだと心配になりました。たいていの方は同意されているようですし、個人的にご存じとのことでよかったです。デジタルでアナログを作るのが難しいという点には同意します。テキストの話なので余談ですが。
ゼロックスのコピー機問題は、私が2022年に学んだ52のこと #33 でも見た内容ですね。
これがこちらにつながるので、興味深くてすごく腑に落ちます!