HNの新規アカウントはEMダッシュを使う確率が10倍高い

(marginalia.nu)

1 ポイント投稿者 GN⁺ 2026-02-26 | 1件のコメント | WhatsAppで共有

最近のHacker News新規アカウントのコメントパターンを分析した結果、既存ユーザーとの明確な違いが確認された
新規アカウントのコメントのうち17.47%がEMダッシュ（—）、矢印などの特殊記号を使用しており、既存アカウントの1.83%より約10倍高かった
また新規アカウントはAIやLLM関連の単語に言及する確率が18.67%で、既存アカウントの11.8%より高く現れた
分析は/newcommentsと/noobcommentsのデータに基づき、各約700件のサンプルを比較した結果である
こうした統計はHNコミュニティ内で自動化アカウント（ボット）が増加している可能性を示唆している

HNコメント内の異常兆候の観察

ここ数か月、HNでボットが急増したような現象が観察されている
- 一部のアカウントは意味のない文字列や数字だけを投稿
- 例として「13 60 well and t6ctctfuvuh7hguhuig8h88gd…」のような難解なテキストや、「1662476506」、「Аё」などの単一文字コメントが含まれる
こうしたアカウント以外にも、普通に見えるが不自然だったり話題に合っていなかったりするコメントが多数存在する

データ収集と分析方法

/newcomments（最近のコメント）と/noobcomments（新規アカウントのコメント）ページをスクレイピングして比較分析
各グループから約700件のコメントサンプルを収集し、単純な統計計算を実施

主な統計結果

新規アカウントのコメントの17.47%がEMダッシュ、矢印などの特殊記号を含み、既存アカウントの1.83%に対して約10倍の差
- 統計的有意性 p = 7e-20
新規アカウントのコメントの18.67%がAIまたはLLM関連の言及を含み、既存アカウントの11.8%より高い
- 統計的有意性 p = 0.0018

解釈と疑問点

人間のユーザーもEMダッシュを使うことはあるが、新規アカウントでの過度な使用率は説明が難しい
こうした差はHNの新規アカウントの中に自動生成されたアカウントが存在する可能性を示唆している

参考資料

分析に使われたソースコードとデータはGitHubリポジトリ（vlofgren/hn-green-clankers）で公開されている
Marginalia.nuはこの研究を**「Weird AI Crap」シリーズ**の一部として掲載している

1件のコメント

GN⁺ 2026-02-26

Hacker Newsの反応

昔のHNでは em dash や en dash をよく使っていた
単にタイポグラフィが好きで、セミコロンの代わりにダッシュを使う癖があった
AHKでキーボードショートカットを設定していたが、そのせいで今では自分の文章がLLMの書いたものに見えると誤解されるようになった
何度もAIと勘違いされたことがあり、以前は楽しかったタイポグラフィの好みが今では否定的に見られるのが残念だ
- 10代の子どもにも、なぜチャットボットみたいに書くのかと聞かれた
  実際には、完全な文、スペル、文法、大文字を気にする人がいるだけなのに、今ではそれがAIっぽく見える世界になっている
  最近はわざと 少し雑に書くことが人間のシグナル になっている気がする。未来のチャットボットもそれを学習するのだろうと思う
- Oxford commaをわざと外したのが冗談だったなら、称賛と呪いを同時に送りたい
- 自分も以前はem-dash愛用者だったが、最近はカンマで代用している
  文章は少しぎこちなくなるが、むしろ 手仕事的な真正性 を感じる文になるので気に入っている
  ただし文末の 2スペース空け だけは絶対にやめられない。1993年のタイプの先生が、文章にも息をする空間が必要だと言っていた
- 読解力の危機がここまで深刻で、チャットボットが唯一の作文教師だなんて悲しいことだ
- 自分も似た問題を抱えているが、私の場合は 箇条書き のせいだ
  昔からMacで option+8 を使う癖があったが、今ではそれもLLM風に見えてしまう
HNの新規ユーザーのコメントでよく使われる単語を統計的に比較してみた
“ai”, “actually”, “code”, “real”, “built” といった単語が 新規アカウントではるかに頻繁に登場 する
データ表に詳しく整理されている
- さまざまな指標でp-valueだけを見て有意だと判断するのは p-hacking だ
  学術的には不適切だが、ここでは興味深い洞察として見られる
  代わりに Cohen’s d のような効果量を計算すれば、差の実際の大きさがわかる
- “actually building full, real AI app project code…” のように単語をつなげた冗談コメントもあった
- 自分も “actually” を使いすぎるので減らそうとしている
  たいてい意味のない フィラーワード で、文章の明確さを損なうからだ
- “ai” という単語は、最近のHNの話題の偏りのせいで結果が歪んでいる可能性がある
- こうした低いp-valueは何かおかしいというサインのようにも思える
  一部の ボットがAI関連の話題を人為的に持ち上げている のではないか、という仮説が立てられる
昔からem-dashを好んで使ってきたが、今では AIと誤認されそうで 使えないのが残念だ
Macでは alt+shift+- で簡単に入力できるのに、良いタイポグラフィ慣習が汚染された感じがする
- LLM疲れは現実だ。重要なのは文体より 人間ならではの視点と個性 だ
  それがあれば、どんな句読点を使っても人間の書いた文章に見える
- そのまま使い続ければいい。自分も20年間そうしている
- 最近はセミコロンで代用している。いつかそれもAIの象徴になるのではと恐れている
- 2010年からem-dashを使っていて、curly quotes や ellipsis も好んで使う
  タイポグラフィを取り戻そうという意味で、Mac用Altコードガイドを共有する
- 人が何と言おうと関係ない。むしろLLMが自分の文章を学習したのかもしれない
  結局、人間の 固有の表現スタイル は表に出るものだ
データは GitHubリポジトリでSQLite DBとして公開されている
Datasette Lite でブラウザから直接SQLクエリを実行できる
em-dashを多く使ったユーザー一覧を見ると、大半は 正常なアカウント に見える
- クエリに source を追加すると、em-dashの使用が多い greenアカウント が目立つ
- iPhone、iPad、Macの 自動補正機能 がem-dashやellipsisを自動で入れることもあるため、データが歪む可能性がある
- 「HNのコメントはHNだけでなく、スウェーデンの誰かにもライセンスされているのか」という冗談もあった
- “great repo name!” という短い称賛もあった
これはHNだけでなく、匿名オンライン言論全体の危機 のように感じる
信頼が崩れれば、プラットフォーム自体が崩壊する
身元確認が唯一の解決策のようにも見えるが、それでも完璧ではない
- 自分も同感だ。匿名性を保ちながら信頼を保証するシステム は作れる
  自分のブログ記事でそのアイデアを紹介した
  結局、人間であることを証明しなければならない時代が来そうだ
- 匿名性をなくすのは解決ではなく、別の問題の始まり だ
- 身元の代わりに proof-of-work や hashcash で信頼を検証することもできる
  コメントの価値がハッシュ計算量で証明されるなら、身元がなくても信頼は可能だ
- 最近はHNを使う気がしない。招待制になればいいのにと思う。HNはHNだけの空間だったのに残念だ
- HNの karmaシステム も一種のproof-of-workだ
  ボットが正のkarmaを維持できなければ権限を得られないので、完全な身元確認でなくても防御は可能だ
最近のHNでは 公式的だが平板なコメントのパターン が目立つ
“this is [要約] / not just x, it’s y / punchy ending” のような構造が繰り返されている
例として snowhaleアカウントを見ると明らかだ
- そのユーザーは、たった4つの平板な投稿で160ポイントを得た
  投票ネットワークを作って物語を操作 しようとする戦略かもしれない
- “is real” という表現も LLMの痕跡 に見える
  検索結果では複数アカウントが同じ文を繰り返している
- 自分も最近そういう 要約型コメント をよく見る
  会話の文脈を読めておらず、妙に 切り離された感じ の返答が多い
- AIも結局は 偏った価値判断 をする
  人間のように中立を装っていても、その中には訓練データの偏りが溶け込んでいる
  完全な中立は幻想なのかもしれない
- 実はこうしたパターンを避けるのは簡単だ
  「自分のように話せ、AIのように書くな、簡潔に書け」とプロンプトに追加すれば半分は解決する
むしろ今回の論争のおかげで、多くの人が em-dashの存在を初めて知った
今では文ごとにem-dashを入れる 新規の人間ユーザー もかなり増えた
自分が見つけた ボットアカウントの大半はem-dashをほとんど使わない
たとえば aplomb1026 は30秒間隔で2つの長いコメントを投稿している
最初のコメント、2つ目のコメントを見れば明らかだ
こういうふうに設定をミスしていなければ、大半の人は気づかなかっただろう
他のボットとしては dirtytoken7、fdefitte などがいる
英文学専攻の人たち は昔からem-dashを使ってきたのに、今ではAIっぽく見えるのではと控えている
もしAIが New Yorker式の分音記号(diaeresis) まで使い始めたら本当にたまらない
- GitHubで働いていたとき、会社はdiaeresisを 読者に不親切でエリート主義的 だとして禁止していた
  それでも自分は内部では使い続けていた
- 一緒に double-dash で手打ちの美学を守ろうと提案していた
- 自分もメールや文章でem-dashをよく使っていたが、AIの痕跡のように見えるのでやめた
- そんな記号があるとは知らなかったが、これからは自分の 表現レパートリーに加える つもりだ
- 自分のem-dash使用量を可視化した ヒストグラム を見たいという意見もあった
「AIっぽく見えないようにする」より、むしろ「ロボットの反乱に紛れ込む」を選ぶなら？
自分は ⸻ (U+2E3B dash) を提案する
- このコメントがHNの 前へ/次へナビゲーション機能を壊す という報告があった
- 「Big Chungus of dashes」と呼び、いちばん幅の広い文字かもしれないという冗談もあった
- 「恐れることはない、人間の友よ！」というユーモラスな返信もあった
- 「私たちは ⸻ をもっと頻繁に使って ⸻ について語るべきだ」という感じの風刺も続いた

HNの新規アカウントはEMダッシュを使う確率が10倍高い

HNコメント内の異常兆候の観察

データ収集と分析方法

主な統計結果

解釈と疑問点

参考資料

関連記事

1件のコメント

Hacker Newsの反応