- 最近のHacker News新規アカウントのコメントパターンを分析した結果、既存ユーザーとの明確な違いが確認された
- 新規アカウントのコメントのうち17.47%がEMダッシュ(—)、矢印などの特殊記号を使用しており、既存アカウントの1.83%より約10倍高かった
- また新規アカウントはAIやLLM関連の単語に言及する確率が18.67%で、既存アカウントの11.8%より高く現れた
- 分析は
/newcommentsと/noobcommentsのデータに基づき、各約700件のサンプルを比較した結果である
- こうした統計はHNコミュニティ内で自動化アカウント(ボット)が増加している可能性を示唆している
HNコメント内の異常兆候の観察
- ここ数か月、HNでボットが急増したような現象が観察されている
- 一部のアカウントは意味のない文字列や数字だけを投稿
- 例として「13 60 well and t6ctctfuvuh7hguhuig8h88gd…」のような難解なテキストや、「1662476506」、「Аё」などの単一文字コメントが含まれる
- こうしたアカウント以外にも、普通に見えるが不自然だったり話題に合っていなかったりするコメントが多数存在する
データ収集と分析方法
/newcomments(最近のコメント)と/noobcomments(新規アカウントのコメント)ページをスクレイピングして比較分析
- 各グループから約700件のコメントサンプルを収集し、単純な統計計算を実施
主な統計結果
- 新規アカウントのコメントの17.47%がEMダッシュ、矢印などの特殊記号を含み、既存アカウントの1.83%に対して約10倍の差
- 新規アカウントのコメントの18.67%がAIまたはLLM関連の言及を含み、既存アカウントの11.8%より高い
解釈と疑問点
- 人間のユーザーもEMダッシュを使うことはあるが、新規アカウントでの過度な使用率は説明が難しい
- こうした差はHNの新規アカウントの中に自動生成されたアカウントが存在する可能性を示唆している
参考資料
1件のコメント
Hacker Newsの反応
昔のHNでは em dash や en dash をよく使っていた
単にタイポグラフィが好きで、セミコロンの代わりにダッシュを使う癖があった
AHKでキーボードショートカットを設定していたが、そのせいで今では自分の文章がLLMの書いたものに見えると誤解されるようになった
何度もAIと勘違いされたことがあり、以前は楽しかったタイポグラフィの好みが今では否定的に見られるのが残念だ
実際には、完全な文、スペル、文法、大文字を気にする人がいるだけなのに、今ではそれがAIっぽく見える世界になっている
最近はわざと 少し雑に書くことが人間のシグナル になっている気がする。未来のチャットボットもそれを学習するのだろうと思う
文章は少しぎこちなくなるが、むしろ 手仕事的な真正性 を感じる文になるので気に入っている
ただし文末の 2スペース空け だけは絶対にやめられない。1993年のタイプの先生が、文章にも息をする空間が必要だと言っていた
昔からMacで option+8 を使う癖があったが、今ではそれもLLM風に見えてしまう
HNの新規ユーザーのコメントでよく使われる単語を統計的に比較してみた
“ai”, “actually”, “code”, “real”, “built” といった単語が 新規アカウントではるかに頻繁に登場 する
データ表 に詳しく整理されている
学術的には不適切だが、ここでは興味深い洞察として見られる
代わりに Cohen’s d のような効果量を計算すれば、差の実際の大きさがわかる
たいてい意味のない フィラーワード で、文章の明確さを損なうからだ
一部の ボットがAI関連の話題を人為的に持ち上げている のではないか、という仮説が立てられる
昔からem-dashを好んで使ってきたが、今では AIと誤認されそうで 使えないのが残念だ
Macでは
alt+shift+-で簡単に入力できるのに、良いタイポグラフィ慣習が汚染された感じがするそれがあれば、どんな句読点を使っても人間の書いた文章に見える
タイポグラフィを取り戻そうという意味で、Mac用Altコードガイド を共有する
結局、人間の 固有の表現スタイル は表に出るものだ
データは GitHubリポジトリ でSQLite DBとして公開されている
Datasette Lite でブラウザから直接SQLクエリを実行できる
em-dashを多く使ったユーザー一覧を見ると、大半は 正常なアカウント に見える
sourceを追加すると、em-dashの使用が多い greenアカウント が目立つこれはHNだけでなく、匿名オンライン言論全体の危機 のように感じる
信頼が崩れれば、プラットフォーム自体が崩壊する
身元確認が唯一の解決策のようにも見えるが、それでも完璧ではない
自分のブログ記事 でそのアイデアを紹介した
結局、人間であることを証明しなければならない時代が来そうだ
コメントの価値がハッシュ計算量で証明されるなら、身元がなくても信頼は可能だ
ボットが正のkarmaを維持できなければ権限を得られないので、完全な身元確認でなくても防御は可能だ
最近のHNでは 公式的だが平板なコメントのパターン が目立つ
“this is [要約] / not just x, it’s y / punchy ending” のような構造が繰り返されている
例として snowhaleアカウント を見ると明らかだ
投票ネットワークを作って物語を操作 しようとする戦略かもしれない
検索結果 では複数アカウントが同じ文を繰り返している
会話の文脈を読めておらず、妙に 切り離された感じ の返答が多い
人間のように中立を装っていても、その中には訓練データの偏りが溶け込んでいる
完全な中立は幻想なのかもしれない
「自分のように話せ、AIのように書くな、簡潔に書け」とプロンプトに追加すれば半分は解決する
むしろ今回の論争のおかげで、多くの人が em-dashの存在を初めて知った
今では文ごとにem-dashを入れる 新規の人間ユーザー もかなり増えた
自分が見つけた ボットアカウントの大半はem-dashをほとんど使わない
たとえば aplomb1026 は30秒間隔で2つの長いコメントを投稿している
最初のコメント、2つ目のコメント を見れば明らかだ
こういうふうに設定をミスしていなければ、大半の人は気づかなかっただろう
他のボットとしては dirtytoken7、fdefitte などがいる
英文学専攻の人たち は昔からem-dashを使ってきたのに、今ではAIっぽく見えるのではと控えている
もしAIが New Yorker式の分音記号(diaeresis) まで使い始めたら本当にたまらない
それでも自分は内部では使い続けていた
「AIっぽく見えないようにする」より、むしろ「ロボットの反乱に紛れ込む」を選ぶなら?
自分は ⸻ (U+2E3B dash) を提案する