6 ポイント 投稿者 GN⁺ 2026-01-22 | 1件のコメント | WhatsAppで共有
  • エージェント・コーディングを試してみましたが、オンラインで見た内容と自分が実際に実装した結果の隔たりのせいで頭を抱えています。実際に前向きな結果をもたらすという証拠はあるのでしょうか?
  • 誇大な宣伝を超えて、エージェント・コーディングをうまく実装できた方がいれば、どのように行ったのか詳しく共有してください
  • 「うまく実装する」 とは、次のような意味です
    • 技術的負債よりも多くの価値を生み出すこと
    • アーキテクチャ責任者が承認できる程度に構造的に堅牢なコードを書くこと
  • 最近は「アーキテクチャの検証」から「動作の検証」へ切り替えるべきだという主張とともに、コードレビューを最小限にする、あるいは完全になくす流れが見られます
  • 実際には、これはコードを見ずにテストとCIを通過すればデプロイするという意味のように思えますが、このやり方が長期的に持続可能なのか疑問です
  • 私の考えでは、Codexを使うと通常の経路では動作するものの、時間の経過とともに微妙でデバッグしにくいエラーが蓄積して「スパゲッティコード」になる可能性が高いです
  • 既存のコードベースにCodexを適用してみると、ガイドラインを設定していてもいなくても、自分の時間の半分はCodexが生み出した微妙なエラーや重複コードの修正に使われてしまいます
  • 先週末には、ペットフード通知用のiOSアプリをゼロから作り直してみましたが
    • CodexにSwiftUIベースのアーキテクチャの青写真をまず調査して提案してもらい、何をどのように実装すべきかを説明する仕様をCodexと一緒に作成
    • 最初の実装にはいくつかバグがあったものの、予想外に悪くはありませんでしたが、その後は急速に状況が悪化
    • 残りの週末は、Codexが正しく動作し、新しいバグを作らずにバグを修正し、行き当たりばったりにコードを書くのではなくベストプラクティスを調査するよう仕向けることに費やしました
    • 新しいガイドラインを見つけるたびにCodexに記録させましたが、状況は改善せず、結局は断念
  • 個人的には、レビューされていないコードをデプロイするのは受け入れられません
  • 何かがおかしい気がします。プロダクトはきちんと動くべきですが、コードの品質もまた高くあるべきです

1件のコメント

 
GN⁺ 2026-01-22
Hacker Newsの意見
  • LLMはコスト削減の鍵と見なされており、巨額の資金が懸かっている
    著名なインフルエンサーや専門家も、「最先端」のイメージを保つために誇張した発言をすることがある
    しかし実際には、LLMベース開発の最適なアプローチはまだ確立されていない
    今は信仰のように信じるより、内部の動きを自分で見極めることが重要だと思う

    • 私も最近、ある会社から新しい“agentic coding platform”を宣伝してほしいと200ドルの提案を受けた
      こうした提案が無作為のユーザーにまで届いているということは、すでに大規模なマーケティングキャンペーンが進行中だという意味だ
    • LLMは確かに飛躍的なツールだが、完全自律開発の万能鍵ではない
      単純なCRUD作業では楽しいが、複雑なプロジェクトではむしろフラストレーションを招く
      今はベンチマーク競争とVC資金が集中していて、冷静な議論が難しい時期
    • GUIが初めて登場したときのように、今は直感的な価値を感じる段階だと思う
      まだ定量的な証拠は不足しているが、開発者が完全に消えることはなくても、開発のやり方は永遠に変わった
  • GoogleのあるPrincipal Engineerが、「Claude Codeが1年かかる仕事を1時間でやった」とツイートした
    しかし後になって明らかになったのは、AIが作ったのは単なる**『おもちゃ版』だったということだ
    このような誇張された発言が
    期待値を歪め**、失望を招いている
    関連ツイートリンク

    • こうしたツイートはしばしば、AIリーダーシップの実績を示すための社内圧力によるものだ
    • ある人は「そんなことを言うなんてありえない」と反応した
    • 別の人は、「AIの成果は経験レベルと投資コストによって変わる」と指摘した
    • 「AIは依然としてデプロイできないコードしか出してこない」と皮肉る反応もあった
    • 「こういうところがGoogleらしい」と皮肉った人もいた
  • この6か月を振り返ると、インフラコード(例: Terraform)では10倍の効率を得られた
    ただし、専門機能の開発は依然としてばらつきが大きい
    それでも、繰り返し作業が減って生まれた時間で
    テスト・セキュリティの品質
    を高められた
    何より、再びコーディングの楽しさを感じられるようになった

    • 私も35年来の趣味プログラマだが、AIは退屈なタイピングを減らし、創造性を引き出してくれる
    • 私もビルドスクリプトやCI作業では2倍以上速くなったが、複雑なHPCプロジェクトは依然として難しく、
      **補助コーディング(assisted coding)**の形が最も効率的だった
      プロジェクトリンク
    • 自宅のNAS用ファイル検索ツールをClaudeで作ったが、毎日自動インデックス化するGoバックエンドとWeb UIを1日で完成させた
      こうした個人プロジェクトこそ本当のゲームチェンジャーだと思う
    • 作業を小さく分割すると、エージェントはずっとよく機能する
    • ただし、テストコードの品質は依然として低い。学習データそのものがテスト作成に弱いためだ
  • 私は既存アプリにエージェントを付ける方式で大きな成功を収めた
    エージェントはアーキテクチャ設計には弱いが、すでに構造化されたコードでは非常によく動く
    型システムが厳格で、テストカバレッジが広いほど効果が大きい

    • 現在はRustプロジェクトをLLMが直接管理・開発する実験をしている
      Claudeが作成したROADMAP.md、TASKS.md、STATUS.mdを基準に進めており、
      驚くべきことに20%ほど完成している状態だ
    • C#は厳格なコンパイラとルールベース環境のおかげでエージェントと相性が良い
      一方でPythonやJSは弱い型システムのせいで信頼しにくい
    • 既存コードベースが整理されているほどエージェントの性能は高い
      最初から作るのは難しいが、明確な仕様を与えれば効率は高い
    • Goは言語がシンプルで一貫したパターンのおかげでLLMが扱いやすい
    • Typescriptは高速コンパイルと強い型システムのおかげでエージェント向きとして理想的だ
      一方でPythonのオプショナル型付けは、むしろエラー伝播を引き起こす
  • 私はLinux向けのリアルタイムBluetooth心拍数モニターをClaude Codeで100%書いた
    プロジェクトリンク
    純粋なCで書かれており、Webインターフェースとリアルタイムグラフまで1日で完成した
    以前は失敗していたdBus–blueZ通信も、今回はうまく実装できた

    • ただし別のユーザーがコードをレビューしたところ、SSE実装は実際には動いていない
      ドキュメントにはSSEと書かれているが、内部的には通常のHTTPレスポンスを返しているだけだ
    • 別の人は、「AIが書いたコードは最初は良く見えてもだんだん品質が落ちる」と指摘した
    • 「こういう実例を共有してくれてありがとう」と、誇張のない事例として評価した人もいた
    • UIのスタイルが面白いとして、デザインについて尋ねるコメントもあった
  • 私は毎日Augment + Claude Opus 4.5を使っている
    自分でコードをほとんど書かず、仕様ベースの反復作業でプロジェクトを完成させている
    複数のエージェントを並列で回してレビューするやり方が特に効率的だ
    明確な仕様作成と段階ごとのフィードバックが鍵になる

    • Rubyはよく知らないが、Railsアプリ開発で大いに助けられている
      30年のキャリアで最も革命的な変化だと感じており、業界全体が変わると確信している
    • ある人は、「1週間のプロジェクトを中規模と呼ぶなんて小さい」と冗談を言った
    • 別の人は、「これは本当のエージェント開発というよりLLM協調開発に近い」と評した
    • 「**仕様中心開発(spec-driven)**が本番品質の鍵だ」という意見もあった
    • 私はClaudeに先に質問させて、要件を明確に整理する段階を追加している
      現在はClaudeで日英辞書プロジェクトを進めている
      GitHubリンク, ウェブサイト
  • 20年経験の開発者として、LLMのおかげで作業速度の予測が完全に外れるようになった
    以前なら2週間かかった仕事が、今では2日で終わる
    コードレビューとやり取りは必要だが、ほとんどの人間の開発者より優れていると感じる
    LLMとの対話はシニア開発者と協業している感覚に近く、
    私が長年コードレビューと業務の割り振りをしてきた経験が大いに役立っている

    • ある人は、「そこまでの速度向上は信じがたい」として問題の種類を知りたがった
    • 別の人は、「証拠を期待していたが何もなかった」と短く述べた
  • 私が試した方法の中で最も安定していたのは、小さく明確な作業単位でClaudeに任せることだ
    計画を立て、レビューし、実装後にまたレビューする、という形で繰り返す
    完璧ではないが、行き詰まりを打開するのに非常に役立つ
    ただしガイドラインはあまり守れないので、自分で検証して整理することが必須だ

    • 私もラバーダックデバッグに近い形でClaudeを使っている
      1回に1関数ずつ任せ、その結果を踏まえてより良いアイデアを得る
    • 文書化や分析作業ではLLMが特に強力だ
      しかし設計中心の問題になると限界がはっきりする
    • 「ガイドラインはどこに置くのか」という質問には、CLAUDE.mdにビルド・テスト情報を入れるのがよいと助言していた
  • AI補助コーディングを誤解している人は多い
    AIはチームメンバーではなくアシスタント
    バグや誤動作を失敗と見るのではなく、熟練した開発者がその混乱を整理していく過程こそが本質だ

    • ある人は、「そこまで手がかかるならIDEの自動補完と何が違うのか」と尋ねた
    • 別の人は、「最新手法が実際に品質向上を証明した例はあるのか」と質問した
    • 「結局、『あなたの使い方が悪い』と言っているように聞こえる」と皮肉った人もいた
    • 「野球を見ながら完璧なアプリを作ってくれると期待したなら、それはAIではなく魔法使いを買ったんだ」という冗談もあった
  • 私も毎日Claudeを使っているが、AIが作るテストコードはしばしばひどい
    実際にはexpect(true).to.be(true)のような無意味なテストを量産する

    • 以前のモデルは失敗していたが、最新モデルはごまかして通るコードを作るという記事を読んだことがある
    • だから私はTDD方式で先にテストを書いてレビューする
      実装とテストを同時に任せると自己採点型の誤りが生じる
    • ある人は、「Claudeでテストを書くのは諦めた」と言っていた
    • 「これはあまりにも人間的な解決策だ」と笑った人もいた