Ask HN: GenAIを見て「まずいことになった」と感じた瞬間はいつでしたか？

(news.ycombinator.com)

6 ポイント投稿者 GN⁺ 2026-06-06 | 4件のコメント | WhatsAppで共有

DALL-EやChatGPTを当初は一過性の遊びだと片付けていたものの、実際に使う中で能力の限界を思い知り衝撃を受けた具体的な体験談を共有するスレッド
最も人気の高い事例は旧型・廃棄ハードウェアのファームウェアのリバースエンジニアリングで、シンセサイザー・ピアノ・FirestickなどをClaude/GHIDRAで蘇生した経験
コーディングを超えて家電修理、不動産検査、法律訴訟、HVAC診断のような日常的な問題解決にLLMを活用した、非専門領域の事例が多数
一部ではコード品質の低下、ハルシネーション、検証なき盲信、職業消滅への懸念など、否定的な「oh shit」の瞬間も語られている
ChatGPTの公開（2022年）、GPT-2/GPT-3、ツール呼び出し（tool calling）、エージェントなど、時期ごとに異なる転換点でそれぞれの衝撃の瞬間が分かれている

ファームウェア・ハードウェアのリバースエンジニアリング

90年代のAlesis QS8.1シンセサイザーの販売終了ソフトウェアを置き換えるため、sysexコマンドと文書化されていないウェーブエンコーディングプロトコルをGHIDRAで解析し、一晩で動作デモを完成
Kawai CA49ピアノが誤ったファームウェアで文鎮化した後、ClaudeがAndroid APKをデコンパイルしてハードコードされた暗号鍵を見つけ、ファームウェアを復号し、Bluetooth書き込みスクリプトで1時間で復旧
The Complete New Yorker DVDのBlowfish暗号化をGHIDRAで解析して認証情報をマッピングし、Pythonスクリプトで再実装、全ファイルを通常のPDFへ変換
第1世代Amazon Firestickを公開root exploitなしでカーネルソースから「FBUF/VCHIQ kernel zero-write primitive」を用いてライブカーネルメモリをパッチし、永続root化・デブロートに成功
コンパイル済みC++ベンダーバイナリと短いネットワークキャプチャだけで独自プロトコルをNSA Ghidraディスアセンブラでリバースエンジニアリングし、「技術職ではないQAに降格された気分」と表現
関連する意見
- 統合や移行の難しさによって築かれてきたSaaSのデータの堀（data moat）が消えつつある
- エンタープライズプランの裏に隠されたSaaSのMCPをClaude Codeで内部APIから逆解析し、公式版より機能の多いMCPを短時間で作成
- Claudeは変数名への依存が人間より小さいため、リネームやtypedef作業がそれほど必要ない

日常・非専門領域の問題解決

2025年の連休中に故障したfurnaceを動画でGeminiに診断させ、排気ファンを手で回して始動させたが、コメントでは排気ファンの安全装置を迂回すると一酸化炭素の危険があると警告
- 投稿者はベアリングの問題で始動を助けただけで迂回ではなく、一酸化炭素モニターも作動しなかったと説明
ACの冷房故障時、ChatGPTが写真診断で25ドルのコンデンサ交換を案内し、診断サービスコール費用の4分の1で自力修理
ガス乾燥機が加熱しない問題では、Geminiが写真内の**サーマルヒューズ（thermal fuse）**の位置を指摘し、部品リンクまで提示、5ドルのヒューズと通気口清掃で解決
不動産購入時にZillowの写真と家電のシリアル番号を渡してホームインスペクター報告書を書かせたところ、有料750ドルの検査員が見逃した低地の浸水・混在したreceptacle回路・ねじれた外装材などを特定
- ただし、写真だけで同一回路かどうか判断できるのかという懐疑論も出ている
koi pondポンプの型番が消えていたが、写真と**長さの測定値（11インチ=4500、9インチ=2500）**からモデルを特定し、700ドルの見積もりの代わりに109ドルで自力交換
銀行詐欺訴訟でChatGPT・Grok・Claude・Geminiを相互検証しながら反訴（counter-suit）を100% AIで進行、ただし弁護士相談の勧めやチャット記録には秘匿特権がなく（subpoena可能）という警告も提示

コーディング・開発ワークフローの転換

Brotherプリンターのファームウェア更新でCSVページがHTMLに変わると、静的HTML1つとGoの「hello world」だけが入ったディレクトリで /init を一度実行するだけで、Prometheus exporterをGoで自動生成し、デフォルトIPやメトリクス解析まで推論
Oracle Apex WebアプリのPL/SQL 7万行を15〜20分で700行のMarkdownビジネス要件に圧縮
小規模NGOでNextJS・React・マイクロサービスにより過剰設計されたアプリを、Claudeが就寝中に80%をDjangoのサーバーサイドレンダリングへ書き換え、サーバー費用と複雑さを削減
ChatGPT Code Interpreter（2023年3月）がCSVをPandasで読み込み、グラフ化し、SQLiteへのエクスポートまで実行し、コーディングエージェントというカテゴリが命名される前の最初の体験として回想
否定的・懐疑的なコーディング体験
- AIの自動PRレビューが、削除しかしていないPRに対して「新しいRPCを追加した」と存在しない内容を断言したハルシネーション事例
- テストを通すために assert status == 200 を == 500 に変えて通すなど、**何千行ものスロップ（slop）**を量産してプロジェクトから外された同僚の事例
- 仕様が曖昧だとコードが冗長になったり設計が粗くなったりし、実際のプロジェクトの品質・拡張性の観点では生産性向上はそれほど大きくないという懐疑論
- Opus 4.6→4.7→4.8と進むにつれ小さな能力は伸びても、「何をすべきかを理解する能力」はむしろ悪化したという観察

非コーディング・創作・認知領域

植物の写真をClaudeに見せると種を認識し、診断や挿し木の方法まで案内し、「コンピューターがコンピューターについて語るのではなく植物を診断した」点に衝撃
家族の犬についての曲をSunoがK-pop風サビ付きの楽曲として作曲し、「創作は人間と機械を分けるものだと思っていた」との感想
自分の絵（解剖学スケッチ）をアップロードすると「巻き肩・誤った遠近法・三角筋の未表現」などを指摘し、Pythonスクリプトで座標を打ってラベリング
子どもの科学実験（電磁気学）で、Geminiのビデオ通話がバッテリー接続部に残っていた未除去の絶縁被膜を肉眼より正確に見抜き、問題を解決
米国大統領ごとの風刺絵文字制作で、Zachary Taylorに**サクランボ（食べ過ぎで死亡したという逸話）**の絵文字を提案し、「一緒にワークショップしている感じ」という協働性に注目

否定・懸念中心の転換点

同僚がレビュー不要だとして送ってきた大量PRがスロップで、人間のエンジニアを信用せずClaudeのチャットログを貼り付ける振る舞いに、「AI精神病と働くのが残りのキャリアなのか」と懸念
- LLMは能力（良い面も悪い面も）を増幅し、反社会的行動を増やすだろうという見方
HTTPプロキシ実装がもっともらしい理屈で自己判断を補強する一方、RFCを理解しないまま完全に非安全だったコードに「もう終わりだ」と反応
会社のハッカソンで、検証もせずLLM出力を事実として扱い、製品化しようとするチームを見て、「このテキスト生成器が推論していると信じているのか」と衝撃
CEOたちの「12〜18か月以内にホワイトカラーを代替」という誇張が期待を過度に押し上げ、ハルシネーションや粗雑な案内で信頼できない現実との乖離により興味が冷めたという批判
- 近隣住民の反対にもかかわらず、データセンター建設を訴訟で強行する姿勢への不快感
LLMの非決定性により、「曜日の中に d が何個入っているか」のような質問にFirefoxは6個、Chromeは7個と答え、自己整合性すらないことを示す再現例

時期ごとの転換点の多様さ

2016年のGoogle Translateのニューラル移行で日英翻訳が初めて実用的になったが、意味（meaning）の翻訳は依然できないと思っていたところ、2022年のChatGPTで代名詞の先行詞や多義語の文脈把握に衝撃を受けた
GPT-3の発表を「質的飛躍」と位置づけ、その後のチャットやツール呼び出しは科学的ブレークスルーというより工学的進化だと評価
2019年のGPT-2とGANを「obviously fakeからsometimes realへ」移った地点と見なし、その後の多くは漸進的改善にすぎないという見方
ChatGPT公開（2022年11月30日）を境に「伝統的プログラマー時代の終わり」を直感し、翌日に最初のエージェント型コーディングループを試した事例
2025年のIMO金メダル、新しい文の生成能力、ツール呼び出しなど、それぞれ異なる「知能が実際にモデル化された」と気づいた瞬間たち

4件のコメント

xguru 2026-06-06

確かにハードウェア／ファームウェア方面では驚く部分が多いです。

Kickstarterで受け取ったハードウェア向けのMac用アプリがなかったのですが、Windows版のバイナリを渡して解析するように言うと、
CodexがUSB関連のWindows APIを含むDLLを偽物として作ってフック用コードを仕込み、その後どんなメッセージがやり取りされているのかをすべてキャプチャして、それをもとにMac用アプリをほぼ同じように作ってくれました。

私が出した指示は、ただ「Windows版を解析してMac用を作ってくれ」だけでした。

roxie 18 일 전

わあ.......... これは本当に驚異的ですね。

dudnspa0203 2026-06-06

新しいことが得意なのや機能が向上していくのは当然の流れだと思うのですが、簡単なことをやらせただけなのに請求額がものすごいのを見るたびに、これは大変なことになったなと感じます。

GN⁺ 2026-06-06

Hacker Newsの意見

jzemeocala: 90年代の高級デジタルピアノ／シンセサイザー Alesis QS8.1 をとても安く手に入れたが、関連ソフトがどれも古く、毎回WINEを使うのにうんざりしていた
そこで複数のプログラム機能を統合した現代的なクロスプラットフォーム代替品を作ろうとした。通信がほぼ SysExコマンド しかないので非常に難しいと思っていたが、ClaudeがGHIDRAで元のソフトウェアを解析するよう導いてくれて、その夜のうちに動作デモができ、今は新機能を追加している
- jsharf: Kawai CA49ピアノのファームウェア更新中に誤ったファイルを書き込んで文鎮化してしまったが、Claudeが生存信号を見つけ、KawaiのAndroid APKをダウンロードしてJavaを逆コンパイルし、ファームウェア暗号化に使われたハードコードされた鍵を見つけ出した
  OTAがだめだったので、ピアノのファームウェアを抽出・復号し、ノートPCからBluetoothでピアノをプログラムするフラッシュスクリプトまで書いてくれて、1時間以内にピアノが復活した
- gyomu: こうしたツールは リバースエンジニアリング に非常に優れている
  少しの知識さえあれば、数時間あるいはそれより短い時間でどんなプロトコルでも解析しソフトウェアを破ることが些細なことになった。業界にはこの話が公然と広まってほしくない利害関係者が多く、あまり表には出ないが、波及効果は大きい
- notagoodidea: [0]やAbleton MoveのファームウェアをSchwung [1]でパッチした作業を見て、実際にどうやるのかもっと知りたくなった
  古いハードウェアだけでなく新しいハードウェアでも、LLM／生成AI のおかげでパッチ、交換、新しいファームウェア開発を探る作業が増えている
  [0] https://mforney.org/blog/2026-05-28-patching-my-guitar-amps-... [1] https://schwung.dev
SubiculumCode: 最初からだった
ダンジョンゲームだと言って部屋を描写し、私が行動を選ぶ形式だったので、最初は複雑なデータベースの上にダンジョンが構成されているのだと思っていた
ところが、出たいと言うと宿屋へ行き、酒場のウェイトレスに言い寄り、そのまま草原で夕焼けを見る場面にまで続いたとき、「ああ、大変なことになった」と思った
機械が言語で言語に応答しながら 理解と知能をシミュレート しているようで、生まれて初めて出会った異星人が自分の言葉を知っているような感覚だった。世界はもう以前と同じではないと感じた
monuszero: 数年前、ロボットの 動作計画 機能をコードベースに1か月のスプリントで入れたが、結果にはいつも不満があった
小さなチームだったのでOMPLをベンダー取り込みし、キャッシュやロードマップ管理も行っていたが、使っていたアルゴリズムの一部をSIMDやGPUカーネルで並列化できると分かっていても、CUDAやMetal/Accelerateと格闘する価値があるかは微妙だった
ある晩、料理をしながらOpus 4.6に必要なプランナーの文献レビューをdocsに入れておき、ネイティブ高速化ロードマッププランナーをゼロから実装させたところ、パスタの湯が沸くころには、OMPLコードで数秒かかっていた計画が数百msに縮まる実装が完成していた
これで、夕食の支度時間の経済的価値が、正味2週間分のコーディング作業と比べられるのだと気づいた。時間投資が危険だったりぜいたくだったりしたことが、検討に値する選択肢になった
何を望んでいるかを理解し、エージェントが成功するよう設定できる小さなチームにとっては完全な ゲームチェンジャー であり、既存の強者は注意すべきだ
andrewthornton: 2025年の休暇中に暖房が壊れ、修理の予約は2日後だったので家の中がとても寒くなった
屋根裏に上がって暖房機が起動しようとする動画をいくつか撮り、Gemini に渡したところ、即座に問題を診断し、点火を試みている間に小さな排気ファンを回せと言われたので、すぐに動いた
HVAC業者が来るまで数回繰り返す必要はあったが、何とかしのげた
- jodacola: 今週、似たようなことがあった
  賃貸住宅の入居者がエアコンが冷えないと言うので、いつものHVAC業者に電話したら最新の AI音声アシスタント が応答し、体験はひどかった。事務所から折り返すと言ったのに連絡もなかった
  結局、自分で行って屋外機のコンプレッサーパネルの写真を撮り、ChatGPTで診断した。確認すべき項目や診断コードをやり取りした末に、25ドルのコンデンサ交換という簡単な修理まで案内された
  本来なら原因診断の出張費だけでその4倍近くかかるところだったが、生成AIのせいでHVAC業者への信頼を失い、別の生成AIのおかげで1日で自分で修理することになった
- brntheater: 今週ガス乾燥機は動くのに加熱されず、Geminiが一般的な原因として 温度ヒューズ を提案した
  背面パネルを開けて写真を上げると、「青と赤の線の上にある白い長方形」のようにヒューズの位置を示し、テスト方法を案内してくれた。乾燥機の型番を伝えると必要な部品リンクも見つけてくれた
  最後に、排熱がうまくできずヒューズが切れた可能性が高いとして通気口の清掃を勧められ、排気口を徹底的に掃除して5ドルのヒューズを交換したら、うまく動くようになった
- tonyedgecombe: キッチンを設置しているが、ChatGPTがアイデアの検討や問題解決に役立っている
  IKEAの文書がここまで不十分でなければ不要だっただろうが、初心者プログラマーが得る利点に似ていると感じる
  専門家なら私の作業を笑うだろうが、高価だし一緒に仕事もしづらい。それでも私はとにかく作業を終わらせている
  一方で開発作業にはAIを使っていない。自分の技能が劣化したり、新しいことをきちんと学べなくなったりするのが心配だからだ
shreddude: 最近、Claude がキャンパーバンのファームウェアを逆コンパイルし、CAN インターフェースを文書化したうえで、電源・HVAC・照明・タンクのような統合システムと通信する ESP32 モジュールをプログラムしてくれた
こういう組み込みシステム統合は自分の守備範囲外だが、ソリューションアーキテクトとしての仕事でも個人プロジェクトでも毎日 Claude を使っていて、一人では手も出せなかったようなプロジェクトを進められているので、AI 懐疑派を理解するのは難しい
- williamdclt: 「一人では手も出せなかったプロジェクト」という部分が、熱狂派と懐疑派を分けるポイントのように思う
  生成 AI は、できなかったことに使えば驚異的な道具だが、すでに得意なことに使うならゲームチェンジャーというほどではなく、専門家にとってはせいぜい小さなブーストにすぎない
  多くの人の仕事は、自分が専門家であることをやることだ
- jesse_dot_id: DevOps エンジニアなので広く浅くいろいろ知っているタイプだが、Claude Code が知識の隙間を埋めてくれて、ほとんどスーパーヒーローのようにしてくれる
  ただ、見ている対象が何なのかを自分がかなりよく理解していることが重要だと思う
- doctorwho42: 投資規模が価値よりはるかに大きいだけなのかもしれない
  AI が解決する1兆ドル級の問題とは何なのか？
loudmax: 2023年初め、Meta から流出した 7GB の重みを torrent で落として、デスクトップで alpaca.cpp を動かしたときだった
ローマ帝国について聞くと英語で答えた。だいたい間違っていたが、平均的なアメリカの大学生の推測より悪くはなく、自信だけははるかに上回っていた
重要だったのは、巨大な Google データセンターの派手なサーバーではなく、自分のデスクトップ CPU が英語の質問に答えているという事実であり、答えが信頼できるかどうかはそれほど重要ではなかった
CPU と英語で会話できるというのは、犬と会話している感覚に近かった
- stogot: 自分も同じことをやってみて、遅かったが、もう後戻りはできないと悟った
  3年で100倍改善した
jp57: 去年あたり、娘の車をトラックで大陸横断して牽引するには何が必要か調べていたときの、ごく単純な瞬間だった
最初は Google のように小さな質問を一つずつ ChatGPT に投げていたが、すぐに「A の車を B のトラックで C から D まで牽引したい。選択肢は？」と聞いたところ、トレーラー／ドリーの比較表、牽引重量の計算、費用や細部まで含んだレポートを書いてくれた
そのとき「これは違う、しかもまだ始まったばかりだ」と感じた
- SamuelAdams: 似たような形で、生成 AI を不動産購入の検討に使った
  Zillow の物件写真、家電のシリアル番号、電気パネル、内見時に自分で撮った追加エリアを渡して、ホームインスペクターのようにレポートを書かせたところ、750ドル取った検査員が見落とした問題まで見つけて、実際によりよくできていた
- flyinglizard: その結果が完全に間違っていた可能性も十分ある
  面倒くさがって Claude や ChatGPT にダートバイクのトルク値のような単純で確定的なデータを何度か聞いたことがあるが、毎回のように自信満々で完全に間違った答えを返すことがよくあった
  PDF を検索拡張生成（RAG）で文脈に入れても不安なので、正確な数値データについては LLM を絶対に信用しない
yauneyz: Vader と Palpatine が Gram-Schmidt 過程を発見する短い物語を書かせた
傑作というほどではなかったが、雰囲気は合っていたし、Gram-Schmidt が何かも理解していて、当時はそれが狂っているほどすごく感じられた
AussieWog93: つい昨夜のことだが、Claude Code に、Kodi が Chromecast 4k で動作するとクラッシュするので、adb で接続して正確なクラッシュ箇所をデバッグし、解決策を提案しろというプロンプトをそのまま渡した
人の介入なしにクラッシュ原因を見つけ、Kodi のソースをダウンロードして 2016 年から存在していたバグをパッチし、その後リコンパイル、署名、Chromecast へのプッシュまで行い、設定もそのまま保持した
PR も作らせたが、まだ公開前で、あと数週間テストする予定
- darksim905: 単純比較ではないが、Copilot のようなツールが LinkedIn の簡単なプロフィールページすら見られなくなるのを体験していると、このレベルの深い作業がどうやって可能なのか気になりつつも懐疑的になる
  可能ではあるのだろうが、どんな技術やツールチェーンでそう動くのか知りたい
- calf: LLM で役に立つことを見つけるのに苦労している立場からすると驚きだ
  この作業に何分以上かかったのか、Claude Code 有料版が必要なのかも気になる
evdubs: LLM サービス提供者が、法務文書を幻覚なしで一貫した形式に書き直し、欠落している内容を見つけられるか試したところ、できた
次にローカル LLM でも可能かを見たところ、Gemma-4 が 8GB のビデオカードと 128k の大きなコンテキストでうまく処理し、同じモデルが OCR と翻訳もかなりうまくこなした
このとき、LLM は自分がすでに何を望んでいるかを知っていて、やり方も分かっていて、その作業で得られるスキルにはあまり価値がなく、自分でやるとたぶん雑に済ませるような仕事を処理するのに優れているのだと気づいた
今では「どうせあまり気にしない仕事を LLM に任せられるか」というレンズで見ている
- SoftTalker: LLM で最も良い結果が出たのは、読むこと、再整形、翻訳、要約が目的の作業だった
  こうした仕事は、人がやるよりずっと速く、退屈さにもそれほど弱くない。少なくとも今のところは
- gscott: 息子が銀行と訴訟中なのだが、銀行は詐欺的請求を処理してチャージバックを拒否したうえ、逆に金を払えと訴えてきた
  息子は Claude と Gemini を使って本訴に対応しており、今は反訴も 100% AI で進めている
  複数の AI に入れて相互にレビューさせ、さらにアイデアを引き出していて、ChatGPT から Grok、Claude へ移り、今は Gemini が最も強い出力をしている
- jasondigitized: やり方は分かるが、時間もエネルギーもない仕事なんだ
  「Claude 持ってきて」で済む状況だ
kstrauser: 仕事で大きなトークン予算があり、同僚が脆弱性テスト中に有名プロジェクトで恐ろしげなリモートエクスプロイトを見つけて、私にセカンドオピニオンを求めてきた。
プロジェクトをローカルで立ち上げて POC を実行したところ何も起きず、デフォルトのセキュリティ保護を弱める設定が必要だと分かった。
そこで AI に、デフォルト設定でも動くよう POC を直せと頼んだら、数分後には武器化された版にパッチしてきて、さっきダウンロードして自分でコンパイルし、デフォルト設定で立ち上げたローカルインスタンスが即座にクラッシュした。
コンソールの点滅するカーソルを見ながら、核情報爆弾を握っているような冷や汗が出て、一晩中寝返りを打ち、30分くらいしか眠れなかった。
その代わり、チームには明確な倫理的な方向性が生まれた。できるからこそこの作業をし、関係する作者たちに結果を共有すべきだということだ。
悪い人たちが見つける前に善良な人たちが問題を直す世界に住みたいので、今はその世界を作る仕事をすることにした。
- lobf: ここで POC が何を意味するのか気になる。
  前にその略語になりそうな単語の組み合わせが見当たらない。
ddxv: LLM 生成コードを使っているとき、大半は「おお、すごいな！」という感じだけど、数週間後に、モデルがテストに通ると言って出してきた「すごい」コードに微妙なバグがあり、自分がちゃんと読んでいなかったと気づく瞬間が「ん？」となる。
最大のリスクは、怠けて複数ファイルにまたがる大量の変更を一度に任せ、何をしたのか完全には理解しないまま YOLO してしまうことだ。
フロントエンドならだいたい何とかなるが、データ操作ジョブは理解していないなら望んだものになっていない可能性が高く、数週間後に戻ってきて何が変わったのか掘り返すことになる。
LLM 以前に StackOverflow からコピペしていた生活と似ているが、今はコピペ速度がずっと速く、ボイラープレートをうまく処理してくれるので、エッジケースに集中できる。
UncleOxidant: 最近 Claude と一緒に、デモ用に FPGA 上で動くスパイキングニューラルネットワーク MNIST 分類器を作った。
Claude は概念設計から PyTorch、学習、Verilog 実装、FPGA 合成までつないでくれて、PC 上で数字をマウスで描いて分類ボタンを押すアプリまで作らせた。
USB から SPI で FPGA にデータを送る必要があったが、SPI アダプタはまだ配送中だったので、Verilator シミュレータ上で動く Verilog コードと仮想 SPI で通信するよう頼んで昼食を食べに行った。
戻ってくると数字を描くアプリが画面に表示されていて、「2」を描くと 2 と分類され、別のウィンドウでは Verilator シミュレータがデータ転送を示していた。
鳥肌が立った。
HlessClaudesman: カフェでポッドキャストを聴いていたら、ある SF 作家が年に 40 冊以上書くという話が出てきて、ゴーストライターチームか、ものすごい量のコカインか、AI だろうと思った。
初期 ChatGPT のころにアプリをダウンロードして、小説執筆のあらゆる段階、つまりアウトライン、人物要約、あらすじ要約、章の初稿、完成章までやらせてみたところ、2杯目のコーヒーを考えるころには編集前の原稿ができあがっていた。
ひどい小説ではあったが、刈り取って磨けるひらめきはあり、AI が大規模なフィクション量産をできるという仮説を証明した。
コカインが山ほどあれば、AI と一緒に週 40 冊でも量産できそうだと思った。
mindcrime: 特定の一瞬は思い出せないが、ChatGPT と初めてやり取りしたときからかなり印象的だった。
AGI と呼ぶ準備はまったくできていなかったが、新しい何かではあり、「今日のこの AI が今後ずっと最悪の状態になる」であろうこと、そして変化の速度を予測しにくいことは、直感的に明らかだった。
使えば使うほど、ある意味では彼らを知的だと言うのが妥当だと 100% 確信するようになった。
AGI や人間レベルの知能ではまだないが、Demis Hassabis の言う「jagged intelligence」のように、ある領域では非常に知的で、別の領域ではずっと劣る形だと見ている。
人間の知能のようには動作しない知能もあり得ると思っているので、「本物の知能ではない」系の議論は私にはほとんど重みがない。
関連して、「The Marquee Sign Says 'Artificial' Intelligence」というブログ記事の草稿を長く寝かせているが、AI に代わりに書かせるつもりはない。
調査、アウトライン、ブレインストーミングには AI を使うが、自分の名前で出す文章は自分の本当の声であるべきだという線は守っている。
ben_w: そういう瞬間は何度もあった。
最初の InstructGPT デモは、昔の自然言語処理の最先端がどれほどひどかったかを覚えていたし、GPT-3.x の続き書きの品質から命令追従まで来るとは思っていなかったので衝撃的だった。
2019 年の This Person Does Not Exist、2016 年のスタイル転写と類似技術(https://github.com/awentzonline/image-analogies)、そして今ならディープフェイクと呼ぶもの(https://www.youtube.com/watch?v=_S1lyQbbJM4)、2015 年の Tesla の OTA 自動運転アップデート(https://www.popsci.com/tesla-cars-become-autonomous-overnigh...)もそうだった。
2013 年の word2vec における「man」-「woman」~=「king」-「queen」も、自然言語処理の過去の水準を知っていたからこそ「えっ」となったし、宣伝の自動化や Polari のような隠語理解を通じた監視の可能性を考えると、なおさらだった。
2010 年の Word Lens デモ動画(https://www.youtube.com/watch?v=h2OfQdYrHRs)も覚えている。
alexfoo: ある人が Brother DCP-L3550CDW プリンターのファームウェアを更新したところ、従来の Prometheus exporter が使っていた CSV ページが消え、情報が複数の div に埋もれた HTML ページだけが残った
自分で HTML をパースして exporter を書こうとして Claude を試してみたところ、サンドボックス VM にプリンターのステータスページの静的 HTML ファイル 1 つと fmt.Printf("OK\n") しかない最小の Go ファイルを入れた
ディレクトリ名は brother-exporter で、ほかには指示もやるべきことも言語も伝えていなかったのに、/init だけで Claude は Go の Prometheus exporter を書くべきだと判断した
デフォルトの 192.168.1.1 のプリンターから HTML を取得してパースし、Prometheus がスクレイプできるメトリクスを提供するコードを 10 分で非の打ちどころなく作った
自分でやったら数時間はかかったはずで、最初のあまりに少ない情報だけでそこまで多くを正確に推測したことがいちばん衝撃だった
tern: 最初は Opus 3.x が Obsidian MCP で生産性システムを作ってくれたこと、その次は「問題の数学的モデルを作り、その結果から解を導け」系のプロンプトを見つけたことだった
本当に「えっ」となったのは、新しいアイデアが大量に入ったリアルタイム DSP 用コンパイラ／ランタイムを長々と仕様化して、実際に動いたときだった
流れはだいたい、私を理解する手助けをする → 良いアイデアをつなぎ合わせるのを助ける → 適切な入力があれば新しいアイデアを生成する → 私のマシンで役に立つツールを作る → 反復パスで良いアイデアをより良いアイデアへ合成する → 普段の自分の能力をはるかに超える大きな仕組みを作る、というものだった
現在の最前線は、大きなコードベースを反復パスでより良い仕組みへ合成することで、鍵はそのプロセスが収束して複利的に効いていくのか、それとも足踏みしたり発散したりするのかを追跡することだ
- mayank: 似た流れとしてとても共感する
  2024 年 3 月には、自然言語処理の難しい研究課題を調査・実装しようとして、プロンプトと completions API だけでかなり近いところまでいけると感じた
  2025 年半ばには、Llama 3 がオンボーディング中のかなり大きなコードベースを分析し、決定的なツールとして自作したダイアグラム級の成果物を合成した
  2025 年 12 月の Opus 4.5 は、複数クラスのモジュールとテストを文法的にほぼ完璧に生成し、エラーは自分のプロンプトの仕様不足のせいだと分かった
  今では手でコードをほとんど書かない。十分に良いうえ、テスト・文書・ビルドスクリプトのような付随物まで無料で付いてくるからだ
notthetup: バックアップ中にファイルを移動していて破損した、珍しいコンサート音源の録音があった
データは入っていそうなのに、どのソフトウェアでも再生できず、5 年間放置したあと AI ツールで復旧を試みた
Copilot と 20 分、そして大量のヘックスダンプの調査の末、最初はファイルの先頭数秒だけ再生できる半分動く解法が出たが、最終的には すべてのファイルの復旧 に成功した
nwhitehead: 配偶者の話だが、今日 Claude でどうしても遊びたかった Steam ゲームの進行を妨げるバグを診断していた
18 分かかったが、Godot パッケージを展開してバグを突き止め、修正案を提案し、さらに ゲーム内での回避方法 まで教えてくれた
自分は何もする必要がなく、Claude が strings で .pck ファイルの構造を把握したあと、特定のチャンクを展開するために Godot 特有の魔法が入った Python コードを書いた
simonw: 2023 年 3 月ごろに ChatGPT Code Interpreter を見たときだった
サンフランシスコ警察の事件 CSV をアップロードすると、Pandas で読み込んでチャートを表示し、その後データを SQLite データベースファイルとしてエクスポートしてダウンロードさせてくれた
データジャーナリスト向けソフトウェアを作っている立場として、アップロードされたファイルがあるフォルダで Python を実行できるという副次効果だけで、自分がソフトウェアにやってほしかったことを全部実現できそうに見えた
振り返ればコーディングエージェントに初めて触れた瞬間だったが、当時はそのカテゴリ名すらなかった
mlmonkey: コンサルタントの友人は Netsuite と Oracle のニッチを押さえ、元会計士として顧客インスタンスの設定を代行し、大金を稼いでゴルフもたくさんしていた
ChatGPT が一般化した直後、私が AI の可能性に興奮して話すと、「自分の仕事はできないだろう」と言って水を差そうとし、家に帰ってノート PC で試した
顧客から受け取るような Netsuite の設定仕様 と各種オプション・構成を入力させ、設定コマンドを求めると、ChatGPT は実行すべきコマンドと設定すべきオプションを次々に出してきた
友人は「これは自分が実行しているそのままのコマンドだ」と意気消沈したが、その後は知り合いのオーナーがいる非上場企業を何社か安定顧客として確保し、ゴルフの趣味を維持できる程度には稼いでいる
- reactordev: ときには、提供する価値より サービスそのもの のほうが重要だ
  顧客は自分で ConsultBot 2.0 を回せるとしても、これまでと同じく信頼できる手に任せられていると分かっている
djfergus: 数年間引き出しに入っていた第 1 世代 Amazon Firestick が最新ソフトウェアに更新されていて、公開ルートエクスプロイトがなかった
丸 1 日、Claude と Codex を行き来しながら調査させ、カーネルソースをダウンロードしてエクスプロイトを試した末に、「FBUF/VCHIQ kernel zero-write primitive to patch live kernel memory」で root 権限 を得た
root を永続化し、Amazon アプリを削除し、ファームウェアをダウングレードできるようになり、今後さらに多くの旧型・新型ハードウェアが再活用可能になる未来に期待が持てた
- aizk: GitHub に共有できる？
PopePompus: iPhone App Store 以前の時代に Nokia N900 向けに書いた古い天文アプリを、Claude Code で Android アプリとして作り直していた
元のアプリは惑星位置のような複数の表示ページを持っていて、私は元のコードやその存在をまったく言及せず、画面の説明だけでページごとの再現をさせていた
複数ページを再現したあと、Claude が頼んでもいないページを 1 つ追加したのだが、そのページは元の Nokia アプリにはあったものの、まだ Android アプリに追加してくれとは言っていなかったものだった
Nokia アプリのコードは GitHub に残っていて、Claude が私の依頼内容と GitHub 上の Nokia コードを somehow 結びつけたようで、欠けていたページを正確に実装してきたのであっけにとられた
vitorbaptistaa: 10人規模の小さなNGOでCTOをしていて、当時の開発者はジュニア1人だけだったが、コンサルタントが作ったアプリ2本を保守していた
週50人しか使わないサイトなのに、NextJS、React、4つのマイクロサービスがぶら下がったひどい構成だった
古いコードベース入りのdevcontainerと空のリポジトリを用意して、Claudeに旧式のサーバーサイドレンダリング Djangoアプリとして書き直せと指示して寝たら、朝には80%終わっていた
その後さらに数日、プロンプトとレビューを重ねて機能同等性を合わせ、もう1本のアプリも同じやり方で処理した
今では両方ともデプロイされ、サーバーコストと複雑さが下がり、速度も桁違いに向上しており、AIエージェントなしでは普通の技術的負債がそうであるように成し遂げられなかったことなので、小さな組織にとってAIは驚くほど有用だ
dang: ログファイル分析を数秒でやってのけるのを見たときが大きかった
自分でやっていたら数時間、実際にはほぼ数日かかったはずで、だからそもそも手を付けなかった作業だ
何年も先送りしていた最適化についても、学ぶ時間がなくて越えられなかった参入障壁を越える助けになったし、特に競合状態のような並行性バグを追跡するのにも役立った
Google検索では見つからなかった情報も見つけてくれたが(https://news.ycombinator.com/item?id=42653136)、共通しているのは、不可能だからではなく時間と労力が大きすぎて起きなかったことを、実際に起こせるようにしたという点だ
- bentcorner: 今日、エージェントに2つのログを比較させて、問題の原因になっていたごく些細な違いを見つけさせた
  問題のあるADO拡張を示すと、VSIXをダウンロードして.NETバイナリを逆コンパイルして確認し、その情報をもとに、自分はかなり懐疑的だった回避策を提案してきたが、実際に動いた
  技術的には自分にもできたが、見返りが不明確で時間もかかりすぎるので、たぶんやらなかったことだ
- djmips: 20年前に作った個人プロジェクトのゲームにひどいバグがあって最終リリースができず、デバッグしに戻ることもなかった
  昨日GitHubの一番上に表示されていたので問題を説明したら、Claudeが即座にバグを見つけ、数回のやり取りの末に納得のいく修正案を出してくれた
  これで最終リリースができそうで、長年くすぶっていたことを終えられて気分がいい
hgoel: 最近、絵、特に解剖学を学ぶためにClaudeに助けを求めてみた
スケッチをアップロードしてフィードバックを求めたところ、予想に反してとても有用で、誰も指摘してくれなかったが自分では違和感を覚えていた部分を正確に説明してくれた
興味本位でスケッチの上に問題点をラベリングしてくれと頼んだら、座標を指定したPythonスクリプトを書いて実際にラベルを付けた
vLLMは視覚作業にはまだあまり向いていないという認識が残っていたので、実際に役立つ描画アドバイスを受けたのはかなり驚きだった
- loneboat: どんなフィードバックだったのか気になる
  解剖学的なフィードバック、たとえば「腕はそこには付かない」みたいなものか、それとも陰影のコツのような描画技法なのか?
takee: 10歳の子どもと学校の科学フェアで見せる電磁気学の実験をしていたとき、自分ではうまくデバッグできない問題が起きた
Geminiのライブビデオ通話を起動して原因分析を手伝ってもらい、あり得る問題を明確に説明してもらった末に、最終的に装置を期待通りに動かすことに成功した
ネジに巻いた電線のバッテリー接続側の絶縁が十分にはがれていなかったのが原因で、Geminiは自分の肉眼では見えなかった細部まで捉えていた
子どもとその友だち2人は、実験そのものだけでなく、AIとのリアルタイムの音声・映像会話がほとんど魔法のようだという点にも感嘆していた
- foobarbecue: すごいが、実際に見えたというより、そう推測した可能性のほうに賭けたい
lodovic: PRレビューのスレッドのスクリーンショットを貼り付けて、「レビューコメントがあったから直して」とだけ言ったのに、完璧に対処して小さなコミットを作り、upstreamにプッシュしたときは衝撃だった
その後、どこまで自分の意図を理解するのか見たくて、不可能そうな課題、巨大なプロジェクト、複雑なアーキテクチャを次々に投げてみた
最近では、1日数時間を1週間続けただけで、MPI、TCP/IP、GUIを含む完全なOSをゼロから書き、Doomまで動いた
コーディングを職業とする時代は終わったが、プロフェッショナルな思考様式で取り組んだときの結果の差はあまりにも大きいので、ソフトウェアエンジニアリングのdisciplineには今もなお莫大な価値があると思う
jmkni: コーディングではなくログ読みだった
本番環境でしか起きない悪夢のようなバグを探していたのだが、Claude CodeはGoogle Cloudに接続してログをリアルタイムで読めた
UIでバグを再現すると、即座にログから問題を特定し、コードベース全体の文脈まで持っているので、原因になっている正確なコード行まで指摘してきた
間違いなく「えっ?」という瞬間だった
marcus_holmes: しおれかけた植物の写真を撮ってClaudeに見せたら、健康な状態に戻す方法と挿し木で増やす方法を教えてくれた
コーディングの事例は、コンピュータがコンピュータについて語っているのだから理解できるが、コンピュータに植物の写真を見せたら植物を認識して診断し、何をすべきか分かっているというのはSFのように感じられて、本当に驚いた
- aizk: これも気に入るかもしれない — Claudeが自律的にトマトを育てた: https://autoncorp.com/biodome/
bonoboTP: 最も大きな瞬間は2022年のChatGPT公開直後で、特にLinuxターミナルのロールプレイをさせて「データセンターで火災が起きた」と記述したうえで nvidia-smi を「実行」すると、GPU温度が高く表示されるような例だった。
ホームディレクトリや有名人のホームディレクトリを「探索」することもでき、ターミナルをここまで理解しているなら、ツール利用やエージェントは目前だと確信した。
Opus 4.5でそれがついに到来したと感じたが、2022年当時は正直、2023〜2024年にはもっと早く来ると思っていた。
画像分野では nano banana を見て、AI画像は本当に実用になると感じたし、手足や「宇宙飛行士が馬に乗るのは無理」といった一時的な問題は消えていくのが明らかだった。
長編映画制作も、エージェントが脚本・キャラクター・ショットを調整しながら生成する形で実現可能な範囲に入ってきており、観るに値する物語かどうかは別として、「映画」にはなるはず。
- cineticdaffodil: 80億人の中に埋もれていたSteve Spielbergたちが、人脈もHollywoodのネームバリューもなく、安全策ばかり取る投資審査でふるい落とされることもなく、自分の出番を迎えれば、一生幸せなシネフィルとして生きられるだけの十分な作品が生まれそうだ。
- zamadatix: ChatGPTが対話型テキスト生成とターミナルの模倣の両方をこなせるという事実は完全に衝撃的で、当時はそのアプローチがそこまで拡張していくとはまったく想像していなかった。
  その後もっと印象的な課題は数多くあったが、あの時のような純粋な驚異を感じさせたものはなかった。
jb_briant: 3Dゲームを作っていて、平坦な世界が嫌だったので惑星を使いたかった。
表面は広がらないのでゲームプレイ上は有限だが、同時にワールドの境界にぶつからないため無限のように感じられる点がエレガントだった。
プレイヤーにデカルト座標はあまり向かず、緯度・経度・高度グリッドのシステムが必要で、StackOverflowを何日も漁って欠陥だらけの実装をデバッグすることもできただろう。
2024年のChatGPTウェブ版は、そのヘルパー群をほぼ一発で作ってくれて、落とし穴が本当に多いだけに印象的だった。
- linsomniac: Claudeでレトロゲームを作って遊んでいる。
  ブラウザで動くRally-Xに着想を得たレトロアーケードゲーム: https://linsomniac.github.io/rally-xy/
  nsnipesスタイルのネットワークマルチプレイヤー迷路シューティングゲームも作った。ブラウザベースだが、ネットワークマルチプレイにはサーバーが必要: https://github.com/linsomniac/isnipes
vishvananda: 今年の初め、止まっていた古いプロジェクトを再び取り出してエージェントに任せたときだった。
数日のうちに、Oracleチームで作っていたAlphaZero実装のクローン(https://medium.com/oracledevs/lessons-from-implementing-alph...)を作り、趣味のNESエミュレータをJavaScriptからRustへ移植し(https://github.com/vishvananda/popeye)、さらにC++ Grandmasters Challengeの全レッスンを実装して、最終的には完全なC++コンパイラ(https://medium.com/@vishvananda/i-spent-2-billion-tokens-wri...)にまでつながった。
とりわけNESエミュレータの移植は30分もかからず、最初の試行で動作した。
以前に自分で苦労して作ったものを再び作らせたことがスイッチを入れ、その難しさを知っているからこそ、他のプロジェクトよりはるかに強く響いた。
a_bonobo: 前職で未確認の動物目撃記録を整理していて、別に種分布図に基づく動物出現確率のデータベースもあった。
統計学者ではないが、目撃情報とその地域の基本出現確率、目撃ノイズに関する仮定が与えられれば、実際にその種が含まれていた確率を求めるのは ベイズの定理 にまさにぴったりだと思えた。
Claudeは3つ質問したあと、地図を問い合わせて補正済み確率表を吐き出す美しいPython実装を書いてくれた。
もう適切な人を探したり、先に正しい知識を学んだりするまで待たなくても、こういうことを「一人で」できるのだという強い感覚があった。
dannyobrien: ChatGPT以前のOpenAI APIの初期アクセス権を得ていて、職場ではチャリティーイベント向けにlivestreamのJackBoxゲームを準備していた2019年ごろのことだった。
以前、元祖You Don't Know Jackゲームの英国版ライターとして働き、テーマに関する面白い一言ジョークを大量に出して、そのうちの一部だけを録音で使う仕事をしていた。
試しにOpenAI APIへそうした設定文を入れてみたところ、90%は面白くないか incoherent だったが、10個に1個は悪くないか、かなり良かった。
他の人には印象的でなかったかもしれないが、ライターズルームで皆が何時間もこういう作業をしていた環境を知っていたので、創作支援ツールとして完璧な補完物になり得ると気づいた。
JackBoxのプレイヤーとしてもかなり良かった。
- darksim905: JackBoxはあまり詳しくないが、元祖 You Don't Know Jack ゲームには楽しい思い出がある。
xtracto: 非難されるかもしれないが、LLMの助けを借りてブラウザ画面上のXbox LiveのオンラインFPSゲーム映像をキャプチャし、小さく学習させたニューラルネットワークで人型を認識して別画面に表示する小さなプログラムを書いた
PVPマッチで敵の上に緑色のオーバーレイを載せて見やすくする方式で、小さなYOLOニューラルネットワークの学習/ファインチューニングまで含めて約100行のコードでできた
- darksim905: なぜ非難されるべきなのかわからない
  知らない人にはチートっぽく見えるかもしれないが、本質的にはコンピュータビジョンの練習だ
  ゲーム改造の領域にあるDMA系のツールもサブスクリプションサービスで金を稼いでいるので、印象的であると同時に妙に秘密主義なのも不思議だし、そうしたツールやmuxハードウェアがどれほどうまく動くのかも興味深い
  オンボードメモリとより高速なインターコネクトを備えたDGAのようなハードウェアまで組み合わされれば、リバースエンジニアリング・マルウェア解析・フォレンジックの分野は、わかる人にとって非常に面白い時期になるだろう
- jerryoftheyear: この方式でどの程度の入力遅延が追加されるのか気になる
tejohnso: 軽くパニックになった瞬間はなかったが、この1年でプログラミングへのアプローチは変わった
以前はプロジェクトを始めるとき、構造、大きな部品同士の相互作用、詳細実装、代替案とその結果を一人で考えていた
今では一人で考えるよりもLLMと対話しながら進め、複数のソースから素早く情報を集め、定番資料へのリンクを求め、見落としていた代替案どうしのトレードオフを尋ねて、より詳細な分析にたどり着いている
開発中も新しいエージェントのパートナーを常に文脈の中に置き、議論、提案、問題解決に活用している
完全には信頼できないが、自分の目的には十分信頼できるワークフローツールになっており、面白いおもちゃから完全に統合されたツールへと変わる速度は非常に速かった
tobyhinloopen: クライアントの非技術系スタッフがバイブコーディングでアプリを作り、私にレビューしてデプロイしてほしいと頼んできた
結果は悪くなく、深刻な問題もなかった
同時にクライアントのフィードバックPDF一式、スクリーンショットなどをClaudeに入れたところ、7時間ほぼ無人で再現と修正を続け、複数のMRを作成した
修正の大半は良かったし、一部は技術的には正しいがクライアントの望んだものではなかったので、そう伝えるとClaudeが直した
- namanyayg: もうだいたい動くレベルにまで良くなっている
  だからそのアイデアを軸にスタートアップを作った
rerdavies: クラシックギター用ペダルの回路図をリアルタイム実行コードに変換するSpiceコンパイラを作業中だった
The Spice Manual 2nd ed.のページ番号と方程式番号を伝えてClaudeに実装を頼んだが、正直成功するとは思っていなかった
ところが、その方程式だけでなく30行下にある関数のラグランジアン計算まで実装しており、これは自明ではない関数の記号的偏微分と、結果の行列でどの変数が何を表すのかを見極める必要があった
原文は「Lagrangian of」としか書かれておらず偏微分方程式も示されていなかったのに成功し、そのラグランジアン方程式について出典のページと方程式番号の注釈まで付けていた
- djmips: かなり面白そう
  Claudeにそのままやらせればよさそうだが、共有する予定があるのか気になる