- AIが生成したテキストに繰り返し現れる**文章パターン(trope)**をカテゴリ別に分類した単一のMarkdownファイル
- このファイルをAIシステムプロンプトに追加すると、ありがちなAI調の文体を避けるよう誘導できる
- 語彙選択、文構造、段落構造、トーン、フォーマット、構成など6つの大分類の下に、30種類以上の具体的なパターンをそれぞれ例付きで整理
- "delve"、"tapestry"、"landscape"のようなAI特有の過剰な語彙から、"It's not X -- it's Y"のように見せかけの深みを作る文構造までを網羅
- 各パターンは1〜2回使うぶんには問題ないが、複数のパターンが同時に、または繰り返し出現するとAI生成テキストの強いシグナルになる
- このファイル自体もAI支援で作成されており、"AIのためのAI、人間のための人間"という免責事項を含む
語彙選択 (Word Choice)
- "Quietly"と魔法の副詞たち: "quietly"、"deeply"、"fundamentally"、"remarkably"、"arguably"などの副詞を濫用し、平凡な記述に微妙な重要性を与えるパターン
- 例: "quietly orchestrating workflows"、"a quiet intelligence behind it"
- "Delve"と類語: かつて最も有名なAIの兆候だった語で、AI生成テキストでは異常に高頻度で現れる
- "certainly"、"utilize"、"leverage"(動詞)、"robust"、"streamline"、"harness"なども同系統
- "Tapestry"と"Landscape": 単純な語で十分な場面で大げさな名詞を使うパターン
- "tapestry"は相互接続されたあらゆるものに、"landscape"はあらゆる分野やドメインに濫用される
- "paradigm"、"synergy"、"ecosystem"、"framework"も同類
- "Serves As"の回避: 単純な"is/are"の代わりに、"serves as"、"stands as"、"marks"、"represents"のような大仰なつなぎ表現を使う
- AIの反復ペナルティが、基本的なコピュラの代わりに派手な言い回しへ押しやることで生じる
文構造 (Sentence Structure)
- 否定並列構文 (Negative Parallelism): "It's not X -- it's Y"パターンで、AIライティングにおいて最もよく識別される兆候
- あらゆるものを驚くべき再解釈として包み、見せかけの深みを生み出す
- LLM以前には、この方法による大量執筆は存在しなかった
- "not because X, but because Y"という因果的な変種も含む
- "Not X. Not Y. Just Z.": 2つ以上を否定したあとで本当の要点を明かす劇的なカウントダウンパターン
- "The X? A Y.": 誰も尋ねていない問いを自分で投げて即答する修辞疑問+即答パターン
- 劇的効果のために使われ、AIはこれを優れた文章の真髄だと見なしている
- 反復句(Anaphora)の濫用: 同じ文頭を短時間に何度も繰り返す
- 例: "They assume that... They assume that... They assume that..."
- 三項構文(Tricolon)の濫用: 3つ並べる規則を使いすぎ、4つや5つに拡張される場合も含む
- 1つの三項構文は優雅でも、3連続になるとパターン認識の失敗になる
- "It's Worth Noting": 何の信号も送らない穴埋めのつなぎ語
- "It bears mentioning"、"Importantly"、"Interestingly"、"Notably"も同類
- 新しい論点を、前の議論と実際にはつなげずに導入する
- 表層的分析 (Superficial Analyses): 文末に現在分詞("-ing")句を付けて浅い分析を注入する
- "highlighting its importance"、"reflecting broader trends"、"contributing to the development of..."のような表現
- 平凡な事実に重要性、遺産、広範な意味を与える
- 偽の範囲 (False Ranges): "from X to Y"で、XとYが実際には同じスケール上にない構文
- 正当な用法では意味のある中間点を持つスペクトラムを示唆するが、AIは緩く関連する2つを並べるために使う
- 動名詞断片の連打 (Gerund Fragment Litany): 主張の後に、主語のない動名詞断片を続けて列挙する
- "Fixing small bugs. Writing straightforward features. Implementing well-defined tickets."
- 最初の文ですでにすべてを言っており、断片は語数とAI特有のリズムを足すだけ
- 人間は初稿をこんなふうには書かず、純粋な構造的な癖である
段落構造 (Paragraph Structure)
- 短くパンチのある断片 (Short Punchy Fragments): 非常に短い文や文断片を独立段落として使い、人工的な強調を作る
- RLHF訓練が、最低レベルの読者を想定した「読みやすさのための文章」へモデルを押しやった結果
- 1文に1つの考え、精神状態の維持が不要な非人間的スタイル
- 変装したリスティクル (Listicle in a Trench Coat): 番号付きやラベル付きのポイントを連続した散文に偽装する
- "The first... The second... The third..."で始まる段落によって、リスト形式を隠すパターン
- リスト生成をやめるよう指示された後、その代替として採用されることが多い
トーン (Tone)
- "Here's the Kicker": 啓示を予告しながら、その前振りが不要なポイントを出す偽のサスペンス転換
- "Here's the thing"、"Here's where it gets interesting"、"Here's what most people miss"も同類
- "Think of It As...": 読者が何を理解するにも比喩が必要だと仮定する教師モードのデフォルト
- AIは元の概念より不明瞭な比喩を作ることが少なくない
- "Imagine a World Where...": AIに典型的な未来主義の誘いで、"Imagine"の後に、その前提に同意すれば起こる素晴らしいことの一覧が続く
- 偽の脆弱性 (False Vulnerability): 第四の壁を破ったり、偏りを認めるふりをしたりする演技的な自己認識
- 実際の脆弱性は具体的で不快なものだが、AIの脆弱性は洗練されていて無リスク
- "The Truth Is Simple": 実際に証明する代わりに、何かが明白または単純だと言い張るパターン
- 大仰な利害の水増し (Grandiose Stakes Inflation): あらゆる論点の重要度を世界史的規模に膨らませる
- API価格についてのブログ記事が、文明の運命についての考察になってしまう現象
- "Let's Break This Down": 専門読者に対してさえ教師と生徒の関係を前提にする教授法的な声
- "Let's unpack this"、"Let's explore"、"Let's dive in"も同類
- 曖昧な帰属 (Vague Attributions): 具体的な出典なしに、"experts"、"observers"、"industry reports"など名指ししない権威に主張を帰属させる
- 1人の発言を広く流布した見解に見せたり、2つの出典を"several publications"へ膨らませたりする振る舞いも含む
- でっち上げの概念ラベル (Invented Concept Labels): 抽象的な問題名詞(paradox, trap, creep, divide, vacuum, inversion)をドメイン語に付けて、分析的に聞こえるが根拠のない合成ラベルを作る
- "supervision paradox"、"acceleration trap"、"workload creep"など
- 名前を付けて議論を省略する修辞的ショートカットとして機能し、同じ文章にいくつも出てくるとAIスロップの強い兆候になる
フォーマット (Formatting)
- エムダッシュ中毒 (Em-Dash Addiction): 劇的な間、挿入句、転換点にエムダッシュを強迫的に多用する
- 人間の書き手は1本の記事で2〜3個を自然に使うが、AIは20個以上使う
- 太字先行の箇条書き (Bold-First Bullets): すべての箇条書き項目が太字の句で始まるパターン
- ClaudeやChatGPTのMarkdown出力では非常によく見られるが、人が手で書く場合はほとんどこう整形しない
- AI生成の文書、ブログ記事、READMEファイル(特に絵文字入り)の確実な兆候
- Unicode装飾 (Unicode Decoration): Unicode矢印(→)やスマート/カール引用符など、標準キーボードでは簡単に入力できない特殊文字を使う
- 実際の書き手はテキストエディタでストレート引用符や ->、=> を使う
- Claudeは特に→矢印を好む
構成 (Composition)
- フラクタル要約 (Fractal Summaries): 「これから話すこと、今話していること、たった今話したこと」を文書のあらゆる階層で適用する
- 死んだ比喩 (The Dead Metaphor): 1つの比喩に固執し、記事全体で繰り返し使う
- 人間の書き手は比喩を導入して使ったら先へ進むが、AIは5〜10回繰り返す
- 歴史的アナロジーの積み上げ (Historical Analogy Stacking): とくに技術系ライティングで多く、歴史上の企業や技術革命を素早く列挙して偽の権威を築く
- "Apple didn't build Uber. Facebook didn't build Spotify..."系のパターン
- 一点希釈 (One-Point Dilution): 単一の論点を何千語にもわたって10通りに言い換える
- 別の比喩、例、フレーミングで同じアイデアを繰り返し、「包括的」に見せるために水増しする
- コンテンツ重複 (Content Duplication): 同じ記事の中でセクションや段落全体をそのまま繰り返す
- モデルがすでに書いた内容を追跡できないとき、特に長文で起こる
- 未編集のAI出力の確実な兆候だが、最近ではやや減っている
- 標識付き結論 (The Signposted Conclusion): "In conclusion"、"To sum up"、"In summary"で結論を明示的に告げる
- うまい文章は読者に結論を感じさせるもので、告知する必要はない
- AIはテンプレートに従うため、構造的な動きをシグナルとして出してしまう
- "Despite Its Challenges...": 問題を認めつつ即座に退ける、AIの硬直した定型
- "Despite its [肯定的な語], [主語] faces challenges..."の後に、"Despite these challenges, [楽観的な結論]"と常に同じビートをたどる
核心原則
- 上記のパターンは1回使うだけなら問題ないこともあるが、複数のパターンが同時に現れたり、1つのパターンが繰り返されたりすると問題になる
- 人間のように書くこと: 多様で、不完全で、具体的に
7件のコメント
「この記事で筆者は、AIが生成したテキストを解剖したうえで、『AI slop』の6つの主要な兆候と、その背後に隠れた構造を暴きます。単なる単語の羅列ではありません。
delveやtapestryのような過剰な語彙から、見せかけの深遠さを作り出す文章パターンまで、人間のようには書かれない理由を扱っています。核心にあるのは、多様で不完全な文章表現を取り戻すことです。」ナムウィキにも関連する文書がありますね(笑)
https://namu.wiki/w/…**
LaTeXで修士論文を書いていた頃に em dash(---) と en dash(--) の違いを初めて学んで以来、今に至るまでほとんどすべての英文ライティングで頻繁に使ってきました。(Espansoでショートカットを設定して使用)
これまで「AIで文章書いたの?」のような指摘を受けたことはまだありませんが、それでも自分が愛用している句読点が AI indicator として使われるとは、なんとも複雑な気分です。
関連して読んでみる価値のある文章: https://marcusolang.substack.com/p/im-kenyan-i-dont-write-like-chatgpt
調べてみたら、GeekNewsで見た記事ですね: 나는 케냐인이다. 나는 ChatGPT처럼 쓰지 않는다. ChatGPT가 나처럼 쓴다
うわ…君、本当に **核心を突いたね。**おお、日本語版も出るといいですね
Hacker Newsの意見
文章を真面目に共有したいなら、こういうプロンプトの使用は避けるべき
LLMでブログ記事を書いてみたが、最初は良さそうに見えても、何度か繰り返すとすべての文章が同じ声で書かれているように聞こえる
他のブログやニュース、ホワイトペーパーでもまったく同じ語り口が繰り返される
読者はテキストの内容だけでなく、著者固有の声を聞きたがっている
関連記事: Why We Hate LLM Articles
AIライティングがいまひとつな理由は、「声」がないから
人間の書き手は自分の経験から出た視点を提示するが、AIには何かを「言おうとする」意図がない
さらに、深い一貫性を保てない。人間的な目標や記憶、自我感覚がないことから生じる問題のように思える
こういう試みは不快に感じる
AIが書いた文を巧妙に隠そうとするより、ただ時間を無駄にしないでほしい
AIで文章を書くのが恥ずかしくないなら隠す必要はないし、恥ずかしいならやめるべきだ
毒の入った井戸に抗議されたからといって、より巧妙な毒を使うのが正しいわけではない
LLMの文体を研究しているが、このスレッドに出てくる表現のうち「tapestry」が興味深かった
GPT-4oが「camaraderie」の次によく使う単語だった
ベースモデルではこうした妙なスタイルは少ないが、instruction tuningを経ると現れる
人間の評価者に文体を評価させているのか、あるいはルーブリックがあるのか気になる
関連論文: PNAS論文, arXivプレプリント
ケニアとナイジェリアの研究を見ると、perplexityが最適化目標なので、事前学習モデルは最も「予測可能な」出力を反映する
「Hydrogen Jukeboxes」という文章も含まれている
文体の変化はGwern Branwenのmode collapse分析でも扱われている
DeepSeek R1 Zeroのように人間の嗜好がほとんど入っていないモデルでも、結局は安定したパターンに収束する
こうした現象は世代ごとに繰り返され、ウェブが前世代モデルの生成物で汚染されることで悪循環が生まれる
たとえば「camaraderie」のトークン化のされ方や、英語では絵文字が唯一の表意文字に近い存在であるため比重が大きくなる点が興味深い
こういうリストは時間がたつほど長くなる危険がある
AIが新しいクリシェを次々と作り出すからだ
このファイルはLLMよりもユーザーである自分のための文書のように感じる
「AIにこのファイルをシステムプロンプトとして追加しろ」という話は、結局AIのAIに指示する形になってしまう
説明が混ざっていて混乱する。「するな」という表現は、むしろその単語をより頻繁に使わせてしまう逆効果がある
ユーザー向けの説明とAI向けの指示は分けるべきだ
自分はClaudeに書き直してもらって、このgistに整理した
LLMに対してはこうした名前を避け、良い文の肯定的な形を説明するほうが効果的だ
Claudeが書き直した版はこちら
「するな」と言うと、かえってそれをやりたくさせるストライサンド効果がある
特定の作家のスタイルで書かせたほうが、より自然で汎用的すぎない文章になる
その後に**「編集エージェント」**を置いてクリシェを除去させると、ずっと良くなる
Geminiで歴史関連の調査を試したが、技術メタファーをやめられなかった
領主をCEO、教皇をインフルエンサー、封建反乱を面接にたとえるような調子で、ほとんどコメディだった
設定で追加指示を入れられるが、自分の技術スタックを入れたところ、すべての回答の末尾に「JVMとv8が処理してくれる」という一文が付くようになった
そこで無視するよう伝えたら、今度は皮肉っぽい口調で「あなたの修士レベルの頭脳なら…」で始まる段落を追加してきた
ClaudeやChatGPTは最近、**「genuine」「real」「honest」**のような単語をよく使う
「no <thing you told me not to do>」のような表現もよく見かける。プロンプト順守を確認するためのものらしい
ウィキペディアにも関連資料がある: Signs of AI Writing
ただ、読んでいると自分が使っている癖も見つかって気まずくなる
とくに「from X to Y」のような見せかけの範囲表現をよく使ってしまう
また、LLMはタイトルとサブタイトルをコロンで区切る癖をどうしても捨てられない
人間が直接書いた有用な資料として、Wikipedia: Signs of AI Writingを勧めたい