Gemini + Claude 並列レビューパイプラインでブログ品質を自動検証する
(blog.neocode24.com)ブログのレビューをAI 5人に任せてみたら、実際に問題を見つけてくれました。
記事を書いたあと、自分で推敲するのがいちばん大変でした。AIが出した下書きを行単位で読み直して直すのに、毎回かなり時間がかかっていました。
そこで、AIにAIをレビューさせるパイプラインを自作してみました。
** 構成はシンプルにしました **
- Gemini 2つ、Claude 2つ、現在のセッション 1つ — 合計5つのCriticを
Bash &で同時に動かしました - それぞれ別のペルソナで読むようにしました。「初見のシニア開発者」「この技術を使ったことがある人」「編集者」「試しにやってみる読者」「SEO担当者」
- JSONでスコアを受け取り、平均が8点を超えれば通過、超えなければフィードバックを反映して再評価します
** 実際に何を見つけたかというと **
1ラウンド目では平均7.6でした。「試しにやってみる読者 Critic」が、コード例がないとして3点を付けたのですが、これは自分で読んでいたらそのまま見過ごしていた部分でした。コードブロックを3つ追加し、列挙型のトラブルシューティングをストーリー形式に直したところ、2ラウンド目で8.4となり通過しました。
** 実際に回してみると構造的な弱点が見えました **
Critic同士のフィードバックが衝突すると、自分で判断して結論を出さないまま先に進んでしまう問題。平均点が高ければ赤点があっても通ってしまう点。パースに失敗すると全体が停止する点です。
そのため、新たにSynthesis仲裁者を置き、Veto(拒否権)の設定と赤点条件を適用し、fallbackパーサーで対応しました。
** 最後の公開は push ではなく PR に変えました **
Human-In-The-Loopとして、AIが合意しても必ず人の目を通すようにしました。PR body にはCriticのスコア表が入り、私が行コメントを残すとAIが修正コミットを追加します。merge前までこのループを繰り返します。
はい、結局この記事も同じパイプラインで公開しました。
3件のコメント
死んだインターネット理論...
Apieceのコストはかなりかさみそうですね
サブスクなので負担ではありませんが、無視はできないように思います。