LLMが私たちの文字言語を歪める仕組み

(sites.google.com)

1 ポイント投稿者 GN⁺ 2 시간 전 | 1件のコメント | WhatsAppで共有

LLMは文章作成支援で効率を高める一方、人間の文章を修正する際に結論・立場・論証のタイプを変え、人間の編集とは異なる方向の意味変化を生み出す
ユーザー調査では、LLMを多く使った人ほど結果に満足している一方で、自分の声と創造性が統計的に有意に低下したと答え、選好のパラドックスを示した
ArgRewrite-v2の人間作成エッセイ86本を3つのLLM（gpt-5-mini、gemini-2.5-flash、claude-haiku）で編集すると、最小修正や文法修正の指示だけでも語彙と意味が大きく変化した
LLMが作成・修正した文章は、より形式的で非人称的な文体へ移行し、名詞・形容詞および感情的・論理的・統計的な言語が増え、代名詞と個人的経験に基づく論証は減少した
ICLR 2026の査読レビュー1万8千件の分析では、AI生成と判定されたレビューは全体の**21%**で、人間のレビューより10%高いスコアを付け、再現性と拡張性により多く焦点を当てていた

研究概要

LLMは世界で10億人以上が利用しており、最も一般的な用途は文章作成支援である
LLMは大きな効率向上をもたらしうる一方、実際にユーザーが望む文章を書いているのかという疑問が提起されている
多くのユーザーはLLMらしい文体の「感じ」は察知するが、LLMが文章の意味をどれほど歪めているかは十分に認識していない
分析対象は3種類の資料である
- 人間ユーザー調査
- 人間が書いた論証エッセイのデータセット
- 主要な機械学習会議のレビュー
研究資料はPaperとCodeで提供されている

主な発見

LLMは文章の結論を変え、立場と論証のタイプも同時に変える
ユーザーは結果に満足していると答える一方で、自分の声と創造性が統計的に有意に低下したとも答え、選好のパラドックスを示した
LLMは単純な文法修正だけを指示された場合でも、人間の編集より大きな意味変化を引き起こす
2026年のInternational Conference of Learning Representations（ICLR）のレビューでも影響が見られた
- AI生成と判定された査読レビューは全体の**21%**だった
- これらのレビューは、論文の採択・不採択の理由において、人間のレビューとは有意に異なる科学的基準に焦点を当てていた
LLMが社会に統合されるほど、このような微妙な意味変化は政治、文化、科学、さらには友人や家族とのコミュニケーションまで変えうる
研究対象は論証的な文章作成だが、結果は他の形式のライティングやコミュニケーションにも一般化できる可能性がある

LLM編集は人間の編集と異なる方向へ文章を動かす

LLMが人間の文章を修正すると、同じエッセイを人間が編集した場合とは大きく異なる、均質化された変化が生じる
反事実分析は、あるテキストをLLMが編集した結果と、人間が編集したであろう結果を比較する
人間の編集の場合
- 最初の草稿は明るい灰色の点で表示される
- 専門家のフィードバックを受けた後の第2稿は濃い灰色の点で表示される
- MiniLM-L6の意味埋め込み空間をPCAに投影して変化を可視化する
LLM編集の場合
- 元の人間作成エッセイに対して専門家フィードバックと複数のプロンプトが与えられる
- 最小限の修正だけを指示しても、すべてのエッセイに大きな変化が生じる
- 変化の方向は人間の書き方から外れた、一貫した方向へ移動する
ArgRewrite-v2データセットの例は、LLMを使った文章作成がエッセイの結論を変え、人間の声を取り除く様子を示している

方法論とデータセット

人間ユーザー調査
- LLM使用が文章作成プロセスに与える影響を把握するため、ユーザー調査を実施した
- 55人はLLMを使用でき、45人はLLMへのアクセス権がなかった
- セッション中に多くのユーザーが自発的にLLM使用を避けたため、実際の使用選択に基づいて結果を条件付けした
- 2つのグループに分けた
  - LLM-Influenced: LLMを使わなかった、または情報探索目的でのみ使った人
  - LLM: LLMを広範に利用した人
- グループ分けは評価と分析の前に事前に行われた
- 区分には会話記録、最終エッセイ、自己申告の使用スコアが使われた
ArgRewrite-v2
- 2021年に収集された人間作成エッセイ86本を使用した
- このデータはLLMが広く公開される前に書かれた文章である
- 3つの本番用LLMを使ってエッセイを編集するようプロンプトした
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- 5種類の修正タイプを適用した
  - 一般修正
  - 最小修正
  - 文法修正
  - 補完
  - 拡張
- LLM生成草稿と人間作成の修正版を複数の次元で比較した
  - 意味
  - 語彙使用
  - 品詞分布
  - 感情的トーン
  - 文体的特徴
ICLR 2026レビュー分析
- ICLR 2026の査読レビュー1万8千件を分析した
- 完全に人間が書いたレビュー1件と、完全にLLMが生成したレビュー1件がある論文を選んだ
- LLM-as-a-Judge分類器を使って、各レビューが挙げた強みと弱みを特定した
- 人間とLLMが付与したスコアを比較した

ユーザー満足と声の喪失のパラドックス

LLMを多用したユーザーは、自分のエッセイが自分の声を反映していないと答えた
同時に結果には満足していると答え、選好のパラドックスが現れた
ユーザーは満足を表明する一方で、創造性と声の有意な低下も報告した
RLHFは選好を最適化するが、創造性と意味を維持するには十分ではない

意味空間で現れた共通方向への移動

対照群の人間作成エッセイは埋め込み空間全体に広く分布している
この分布は、個人ごとの視点、文体、論証方法の多様性を反映している
LLMが書いたエッセイは、人間作成エッセイが占めていない領域に密集する
LLM編集は大きな意味変化を生み、変化の方向も強く共通している
LLMによる修正版は、これまでどの人間作成エッセイも占めていなかった空間領域へ移動する
これは、LLMが人間の編集者とは異なる仕方で意味を移動させる証拠となる

結論と立場の変化

LLM利用者は「お金は幸福につながるか？」という問いに対して、より中立的なエッセイを書く
これらのエッセイは明確な立場を避ける傾向を示す
これは論証の立場そのものが変わる根本的な変化として現れる

語彙と文法の変化

LLM編集は、人間の編集より使用語彙をはるかに大きく変える
各筆者固有の語彙的な指紋は、LLMが好む語彙で上書きされる
LLMはより形式的な文体を採用する
品詞分布にも変化が現れる
- 名詞と形容詞の使用が増加する
- 代名詞の使用が減少する
代名詞の減少は、一人称や経験に基づく論証が減り、非人称的な言語へ移行しているシグナルと解釈される

感情・分析・論理・統計言語の増加

LLMを使った文章作成は感情的な言語を増やす
人間編集とLLM編集を比較すると、肯定感情と否定感情の両方でかなりの増加が見られる
この増加は、最小修正や専門家フィードバックが指示された場合でも発生する
LIWC分析では、ArgRewrite-v2のLLM編集版は、より形式的で論理的かつ階層的な思考パターンを示す言語が増加していた
ユーザー調査では、人間のほうが個人的経験に関連した論証をより多く使用していた
LLM作成エッセイは、統計的・論理的な論証をより多く使っていた
LLMの影響を受けたエッセイは専門家意見も引用しており、人間作成エッセイではまれな傾向だった

科学制度における評価基準の歪み

科学レビュー過程でLLMが使われると、LLMは人間より10%高いスコアを付ける
人間とLLMのレビューでは、強み・弱みと見なす基準が異なる
人間のレビューは次の項目をより頻繁に扱う
- 明確性を強みとして扱う可能性が**32%**高い
- 明確性を弱みとして扱う可能性が**58%**高い
- 研究の関連性を扱う可能性が**32%**高い
LLMレビューは次の項目をより頻繁に扱う
- 再現性を扱う可能性が**136%**高い
- 拡張性を扱う可能性が**84%**高い
人間とLLMレビューの評価基準の違いは、どのような科学的研究が妥当だと認められ、奨励されるかに影響しうる

結論

これらの結果は、AIが文章言語と文化的制度を微妙に歪める問題的な様相を示している
AI生成コンテンツはすでにさまざまな領域に浸透している
- 議会演説
- 歌詞
- 映画脚本
- 話し言葉
- 同僚や愛する人に送るメッセージ
AIに大きく依存する人々は、AIが自分の声と創造性を減らしていると認識しながらも、結果には同様に満足している
使いやすさと個人のキャリア加速の可能性は、人々がAI生成テキストを作り続けるよう促す可能性が高い
ICLRデータが示すように、専門的な文脈でAI生成テキストを自分の文章として提出しようとする誘因も今後続く可能性がある

1件のコメント

GN⁺ 2 시간 전

Lobste.rs の意見

これは本当に不快になるほど disturbingだ。特に、LLMが自動運転車に関する議論を書き換えてしまった例はかなり衝撃的だ
LLMが中立的な態度を取ること自体はまったく驚きではない。主流のLLM製品の中核的な目標は、基本的に「既知の」真実を述べ、ユーザーを助け、それ以外については曖昧に中間的立場を取ることだと理解している
価値のある文章を書いたり編集したりするのに、人々がLLMに頼るというのがどうしても理解できない
- 人が完全に自分で下書きを書いたうえで、LLMには「問題がないか確認する」だけを任せるという善意の解釈をしても、その後で変更点を見直しながら、結果が提出した文章と違う意味になっていることにどうして気づけないのかわからない
  「不快だ」という表現がまさにぴったりだ
- 私の理解では、Musk の Grok は意図的に偏るよう作られている、あるいはそうだったように見える
- それは秘書や校正編集者に対しては良い職業的慣行だ
  LLMをそういう方向に訓練することの何が悪いのか理解できない
このページは私の環境では一貫して正しく読み込まれない。a preprint がある
頻度グラフは口があんぐり開くほどで、正直なところ私が予想していた姿とほぼ完全に一致しているように見える
贈り物のように受け取ればいい。左側にあるものは今や強い言葉になったもので、右側にあるものは今やますます意味のない言葉になりつつあるものだ
- どのグラフのことを言っているのかわからない。ページでそういうものは見なかった
Claude を校正編集者として使おうとしたとき、こういうことをたくさん見た。スペル、文法、句読点だけに集中させるには、プロンプトを何度も書き直す必要があった
意味が変わる傾向は、埋め込みが機能する仕組みと関係している気がする
ユーザーにある主体性と責任が、AI/LLMをめぐる多くの議論で奇妙なほど欠けている
ユーザーが大人だと仮定するなら、LLMを使うことは能動的な選択だ。出力を使うかどうか、どのように使うかも決められる
AIが政治、文化、科学、さらには友人や家族とのコミュニケーションの仕方まで「根本的に変える」のだとしたら、それは人々がそうすることを選んだのであり、AIがその選択を容易にしたからだ
ユーザーに意見や好みがなかったとしても、選択が行われたという事実が消えるわけではない

LLMが私たちの文字言語を歪める仕組み

研究概要

主な発見

LLM編集は人間の編集と異なる方向へ文章を動かす

方法論とデータセット

人間ユーザー調査

ArgRewrite-v2

ICLR 2026レビュー分析

ユーザー満足と声の喪失のパラドックス

意味空間で現れた共通方向への移動

結論と立場の変化

語彙と文法の変化

感情・分析・論理・統計言語の増加

科学制度における評価基準の歪み

結論

関連記事

1件のコメント

Lobste.rs の意見