- ケニアの教育制度の中で形成されたフォーマルな英語文体が、AIが生成した文章のように見えるとたびたび指摘されている
- 英作文教育における構造的な訓練が、文のバランス、論理的な流れ、接続語の使用などを重視し、AIの文章と似た結果を生んでいる
- この文体は植民地時代のイギリス式英語教育の遺産であり、社会的地位と教養の象徴として維持されてきた
- AI検出器と言語モデルのバイアスが、非ネイティブの文章を「非人間的」と判断してしまう問題を指摘
- 文章を通じて表れているのは機械ではなく、歴史・教育・言語的アイデンティティの産物であることを強調
AIと人間の文章をめぐる誤解
- 自分の企画書について「ChatGPTが書いたみたいだ」というフィードバックを受けた経験から話が始まる
- 文体が構造的で論理的だという理由で、**「人間味が足りない」**と評価された
- 多くの書き手が同様の反応を経験しており、これは非ネイティブの書き手に対する偏見と結びついている
- 筆者は、自分の文体がAIに似ている理由は、AIが自分たちの教育方式を学習したからだと説明する
ケニア式英語教育の形成
- **KCPE(ケニア初等教育資格試験)**の英作文試験が、文章訓練の中核をなしている
- 40点満点の試験で高得点を取るためには、豊富な語彙と複文構造を身につける必要がある
- 作文のルールは3つに要約される
- ことわざや印象の強い一文で始めること、多様な語彙を使うこと、完璧な構成を保つこと
- 教師は、**赤ペンで文法と構造を添削する「元祖アルゴリズム」**の役割を果たす
- このような訓練は論理的でバランスの取れた文の構成を重視し、その後も高校や大学で続いていく
植民地の遺産と言語の序列
- ケニアの英語教育は大英帝国の言語体系に由来する
- **「Queen’s English」**を基準とした文法的正確さと格式が重んじられる
- 独立後もこの言語は公用語であり、社会的地位の象徴として維持された
- 洗練された英語運用は教育水準や階層を分ける基準となった
- その結果、AIが学習した膨大なフォーマル文体は、ケニア式英語教育の産物と似た形を帯びるようになった
AI検出器のバイアスと限界
- AI検出器は**「perplexity(予測可能性)」と「burstiness(文の長さの多様性)」**を基準に判定する
- 予測可能な文構造と一定のリズムは非人間的と見なされる
- しかしケニア式教育は、まさにこの予測可能でバランスの取れた文体を理想としている
- 研究結果によれば、この種の検出器は非ネイティブの文章をAI生成物と誤分類する可能性が高い
- これは言語的多様性を排除する技術的バイアスを示している
人間性と言語の再定義
- ケニアの作家の文章は、機械ではなく教育と歴史、文化の結果物である
- 「人間らしい文章」の基準がくだけたアメリカ英語の表現に限定されている現実を批判
- ナイロビ、ラゴス、ムンバイなどの書き手たちも、正確さと論理性を尊ぶ文章の伝統を共有している
- 「AIっぽく見える」という判断は、別の形の人間性を認識できていない視線である
- 結論では、これこそがケニア人の書き方であり、昔から続いてきたやり方だという宣言で締めくくられる
2件のコメント
Hacker Newsの反応
私たちの世代は、教師から生徒へと受け継がれる書き方の不文律を学んできた。
最初の文は必ずことわざや強い一文で始めるべきで、平凡な単語の代わりに
strode purposefullyのような表現を使わなければならなかった。しかし大学でライティングを学ぶうちに、次第に単純な文と短い表現へと押し戻されていった。
今ではヘミングウェイ風の文体が理想だと感じる。ChatGPTの華美な文体はむしろ疲れる。
作者の実力は認めるが、私は単純で明快な文章のほうが好みだ。
文を短く書くことへの強迫観念が英語散文をだめにした。
たいていの人には単純さが役立つが、長文やセミコロン、ニュアンスのある語彙を「悪文」と片づける風潮は問題だ。
そうした態度は読者と書き手の両方の成長を妨げる。
ただし
proceeded toのような表現は今でもゴミだ。学生に無理やり「賢そうに見える」単語を使わせるのは最悪の教育方法だ。妻は作家だが、ファンフィクやロマンス小説では
strodeという単語がやたら多いと言っている。誰かが歩くたびに「堂々と歩いた」と書くのは、アマチュアにありがちな特徴だ。書き方のスタイルには階級のシグナルが隠れている。
記事で述べられているように、私たちが学んだ英語は帝国主義時代の「Queen’s English」であり、権力の言語だった。
文章の形式美を身につけることは、単に試験に受かるためではなく、「文明化された人間」であることを証明する行為だった。
ライティングの流行は社会的なファッションの循環に似ている。華美な文体が大衆化すると、上流階級は逆に簡素な文体で差別化する。
ヘミングウェイ風の抑制された文体は、まるで「破れた1000ドルのジーンズ」のように、余裕のある者だけがあえて質素に見せる行為に近い。
私は Big Three 企業の一社で働いていたが、ChatGPTの文体は会社で学んだ自己評価レポートの文体とまったく同じだ。
成果そのものよりも、「物語」としてうまく包装することが昇進の鍵だった。
もしかしてアメリカ人? 英語圏でもイギリス式とアメリカ式の文化差は大きい。
アメリカ人はより気取らず率直だが、イギリス英語は今でも華やかで装飾的な傾向がある。
私の実感では、イギリス人の語彙力は世代を追うごとに落ちている。
書くことには二つの目的がある。
(1) アイデア伝達のための文章 — 単純であるほどよい。Paul Graham のエッセイのように、情報が摩擦なく頭に入る。
(2) 自己表現のための文章 — 華やかで芸術的な文体がふさわしい。
David Foster Wallace が言ったように、前者は会話のように伝える文章で、後者は「これが私だ!」と叫ぶ日記のような文章だ。
LLM の学習データのかなりの部分がケニアでキュレーションされていたという点が興味深い。
もし日本でデータが作られていたら、ChatGPT は
Don’t you agree?のような日本語的な語尾を使っていたかもしれない。関連記事
インド出身の教材著者 Malkiat Singh の影響が大きい。
彼の教材はケニアで標準教材として使われ、その教え子たちが LLM データのキュレーターになったことで、その文体が世界中の AI に染み込んだわけだ。
Malkiat Singh のWikipedia
(短く言えば)避けられないことのように思える。
樣はたぶん「ChatGPT(Japan)」ミームの準備中なんだろう XD
ただしデータラベリングは、LLM のテキスト生成用学習データとは別物だ。そこを誤解している人は多い。
1897年のシカゴ City News Bureau のスタイルガイドを読んだが、興味深い規則がたくさんあった。
たとえば
nightとeveningを混同するなとか、veryは不必要に使うな、といった具合だ。こうした細かな規則が、当時の言語感覚を示している。
veryを避ける姿勢を保っている。私には、この文章の文体は ChatGPT とまったく違って見える。
多くの人はem-dash(—)の使用を AI の痕跡だと見なすが、それは弱いシグナルにすぎない。
むしろ ChatGPT は大げさな調子と「空虚な荘重さ」を生み出す。
実際に段落を比べると、AI版のほうがより華やかだが、誠実さは薄く感じられる。
この文章には引き込む力がある。たいていの GPT 出力は一段落を過ぎたあたりで集中が切れる。
読み終えても何の情報も残らない感じだ。
LLM と人間の違いは、たくさんの言葉で何も言わない能力にある。
すでに完成度の高い文を GPT に「改善しろ」と言えば、当然もっと冗長にするしかない。
原文には構造的な装飾があっても意味が生きている。AI が書いた文章は情報密度が低く、退屈だ。
em-dash をやみくもに狩るのは、文法を知らない人のやることだ。
芸術家や YouTuber も同じ問題に直面している。
AIっぽいという理由で誤解される現象が増えている。
実際、声が AI 音声に似ているという理由で仕事を失う声優も出てきそうだ。
私も Factorio の動画を上げたが、何人かの視聴者が「AI音声がうざい」とコメントしてきた。
実際には自分で話していたし、動画の最後には顔も出していたのにそう言われた。
AI音声は感情がなく発音も不自然なので、すぐにわかる。
最近のチュートリアル動画には、AI が書いたスクリプトをそのまま読み上げた「中身のない動画」が多い。
だから今では信頼しているクリエイターの動画しか見なくなった。
私の動画リンク
AI画像生成に実在人物の顔が無断使用されているなら、Pierce Brosnan が真っ先に補償を受けるべきだろう。
私たちのチームにも ChatGPT のように話す同僚がいた。
WhatsApp と Zoom での話し方があまりに機械的だったので Meta AI に聞いてみたら、「AI が書いた文章のようだ」と返ってきた。
でも本人は実際には AI を使っていないと言っていて、今思えば本当にそうだったのかもしれない。
でもAI に AI 判定をさせるのはおかしい。それは自分自身に尋ねるようなものだ。
私も「ChatGPT が私みたいに書く」という経験をした。
私は箇条書きやフォーマットをよく使うし、ディスレクシアに配慮した文章を好む。
2019年に書いたメモを見ても、すでに ChatGPT っぽい感じがあった。
わざとスペルミスを入れたり、非定型な文体を混ぜたりもする。
冷静に言えば、その文章が ChatGPT の標準出力と区別できないなら、それは悪い文章だ。
実際に AI を使っていなかったとしても、その文体は改善が必要だ。
教育では、AI よりもうまく書ける人にだけ高い評価を与えるべきだ。
「ChatGPT みたいに賢そうに聞こえようとしている」と言って同僚を非難するのは、ちょっと滑稽だ。
em-dash 論争は興味深い。
以前は Word が自動変換するときしか見たことがなく、自分で入力したことはなかった。
Windows で Alt+0151 を押す必要があると知ったのも今回が初めてだ。
だから私にとって em-dash は今でもなじみの薄い記号だ。
今では、人はそれぞれ違う環境で書いているのだと理解するようになった。
実際、HN には ChatGPT 以前から em-dash を好んで使っていた人たちがいた。
HN em-dash ユーザー順位表
私は emacs で Typo mode を有効にして、en/em dash やスマートクォートを自動で使うよう設定している。
HN データセットを分析してみたが、AI の普及後も em-dash の使用量は増えていなかった。
ただし過剰な括弧的文構造は、AI や未熟な文章の特徴だ。
macOS のメモ帳で
--が自動的に—に変わってしまい、そのせいでターミナルコマンドが失敗したこともある。OP の英語力に感心した。
たいていの非ネイティブは学校で文学的な英語を学ぶので、形式張った文体に慣れている。
私もフランスでそういう教育を受けたが、IT 業界で働くうちにアメリカ式の率直な英語へと変わった。
この文章は ChatGPT が書いたものではない。無駄な装飾がなく、情報密度が高い。
AI の文章は半分以上読み飛ばしてしまうが、この文章は一語たりとも見落としたくない文章だった。
これは文章がうまい人の呪いのような現象だ。
ChatGPT は「うまい文章」をまねるよう設計されているため、文章がうまい人ほど AI だと誤解される。
実際、文法ミスの多い文章でさえ ChatGPT っぽいという理由で非難されるのを見たことがある。
ChatGPT はアフリカのビジネス英語で訓練されていたという公開情報がある。
関連記事
「うまく書けている」の定義を冗長で無難で批判を避ける文体とするなら、それは当たっている。
実際のところ、LLM は人間より文章がうまいわけではない。
a/anのような基本文法もしばしば間違えるし、because trafficのような意味省略型の表現もまだ使う。こうした点を見ると、人間の細やかな意味調整能力はまだ優位だ。
OP の文章には、LLM 特有の人工的な感じがない。
em-dash の使い方も自然で、個人的な感情がにじんでいる。
私は ChatGPT 風の文体が嫌いだ。
マーケティング文句のように疲れるし、空虚な華やかさだけが残る。
こういう文章は読者をうんざりさせ、情報伝達力も落ちる。
ケニアでこういう文体を教えているというのは驚きだ。
「私は ChatGPT のように書くのではない、ChatGPT が私のように書く」という言葉が印象的だ。
結局のところ、私たちはだんだんChatGPT のように話し、書くようになる運命なのだろう。
子どもは宿題を、大人は履歴書や相談を AI に任せ、会話でも「それはその通りだね、理由を3つに整理してみよう」といった言い回しをするようになる。
(チェックの絵文字) 絵文字をもっと追加しましょう — 人間は絵文字が大好きです
(赤い X の絵文字)
bullshitのような否定的な単語は避けましょう(親指の絵文字) もうすぐ人間フィードバック学習を超えますよ(笑)
面白い文章ですね。