新しく触れたサービスを試すついでに、それぞれ異なる強みを持つ4つのエージェントでバイブコーディングをしてみた。(以前にAIプロトタイピングサービス(v0、Lovable、Replit、Bolt、Tempo、Mocha)をディープリサーチ+実際に使って比較したことがあるが、今回は同じプロンプトで実装して比較)
- Lovable: AIプロトタイピングサービスの先行組のひとつ。洗練されたUIを素早く実装してくれる。即時にパブリック公開が可能
- Gemini App Build: Google AI Studioで利用。Gemini APIを呼び出すアプリを無料で作れる。チャット回数の制限なし
- Rork: モバイルアプリシミュレーターを初めて内蔵したバイブコーディングサービス。スマートフォンでアプリとしてテスト可能
- Flowith Neo: 24時間動き続けるスーパーエージェント。コーディングを含むさまざまな作業をマルチエージェントでこなせる
すべて同じ条件で、知人たちと一緒に自前で開発して進めた支援要請スキルトレーニング・ワークショップのハンドアウトを入れ、「一人で訓練できるシミュレーションアプリを作ってほしい」と依頼した
各サービスは次の7つの基準(合計70点満点)で、かなり主観的に評価した
- 実装プロセス
- 効率性: 動くアプリを作るまでに自分の介入が少ないか
- 使いやすさ: テストやデバッグがしやすいか
- 速度: 実装スピードが速いか
- コスト: 実装にかかる費用が少ないか
- 実装結果
- 機能性: 機能が期待を満たし、充実しているか
- 操作性: できあがったアプリのUI/UXが直感的で美しいか
- 効果性: 実際に支援要請スキルトレーニングの役に立つか
評価結果の要約
(表でまとめた画像と、各サービスごとの詳細な動作画面はブログにあります)
全体として:
- 実装プロセス: Lovable > Gemini >> Rork >>>> Flowith
- 実装結果: Lovable ~= Flowith > Gemini = Rork
何ターンで完成したか:
- LovableとGeminiはどちらも1ターンで完成(Geminiは自力で一度バグ修正して完成)
- Rorkは(エラーメッセージを貼り付けて)2回のバグ修正後、3ターンで完成
- Flowithは何度も手動で介入し、自分でも直そうとしていたが完成できなかった。ただし途中で継続的にプレビューが出るので、中間結果は確認できた
感想
- 少しひいきは入っているかもしれないが、全体的にはLovableが圧倒的。それでもそれぞれに明確な強みはあった
- Gemini: LLM呼び出しをその場でテストできる体験が特別
- Rork: モバイルアプリをスマホでそのまま試せるので、アプリならではの良さがある
- Flowith: 追加リサーチをきちんと行う。完成までしてくれていれば……
- 期待していたFlowithは中間結果こそ印象的だったが、まだバイブコーディングのメインツールとして使うには厳しいと思う。何よりチャットメッセージベースではなくクレジットベースなので、コストが高すぎる
- 参考までに、実装プロセスは今回だけでなく全体の体験を通して評価したもの。Rorkは今回が初めてで、Lovableは複数回、GeminiとFlowithはそれぞれ3つずつ作ってみた
詳細評価
🥇 1位 Lovable - 63点(1ターンで完成)
実装プロセス
- 効率性: 9
- 使いやすさ: 9
- 速度: 10
- コスト: 7
とにかく全部うまい。 1ターン目の実装が最も速くてきれい。エラーメッセージベースの自動バグ修正が便利。無料のビジュアル編集とバグ修正も優秀。コード修正も、有料ならその場で、無料ならGitHub連携で可能。即時にパブリック公開できる点も良い。
実装結果
- 機能性: 9
- 操作性: 10
- 効果性: 9
UIはやはり美しく、文句のつけようがない。 機能が非常に豊富というわけではないが、ハンドアウトを創造的に解釈していて直感的で、必要な機能は一通り揃っていた。
支援要請の3段階を常に踏まなければならないのは欠点。シミュレーションも単純なルールベースだったが適切だった。ここにLLMをはじめ、ほかのサービスで良かった点だけ足せばよさそうだと感じた。
🥈 2位 Gemini App Build - 56点(1ターンで自力バグ修正後に完成)
実装プロセス
- 効率性: 7
- 使いやすさ: 8
- 速度: 8
- コスト: 10
無料でチャットでき、Geminiを無料で呼び出せるのが強み。 1ターン目でかなりよく作り、作成直後に出たバグは自力で直した。
マルチターンではあまり得意ではない。エラーメッセージベースの自動バグ修正も可能だが、そのバグを最後まで直せず、結局は手動で介入した。ビジュアル編集はないが、コード修正は最もしやすい。 デプロイにCloud Runが必要なのは欠点。
実装結果
- 機能性: 8
- 操作性: 6
- 効果性: 9
UIは明らかに硬い。Googleのツールを思わせ、ハンドアウトの内容も創造的に解釈せず、そのまま出てくる。3段階を常に全部やる必要があり、不便な面がある。
ただ、シミュレーションでチャットするとAIが返答してくれる体験は非常にユニークで効果的なので、その分高く評価した。これはこのサービスにしかできない。
🥉 3位 Rork - 46点(3ターンで完成)
実装プロセス
- 効率性: 7
- 使いやすさ: 5
- 速度: 7
- コスト: 4
モバイルアプリになるのが強み。 Android、iPhoneの両方でExpo Goアプリとしてスマホに入れて問題なく動作した。Claude Sonnet 4をはじめ、実装モデルを選択可能。 自動バグ修正があり、実際にバグもよく直してくれる。
コード修正はできず、ビジュアル編集もなく、何よりバグ修正が有料なのが問題。正直、自分が1ターン目に作ったバグ入りアプリを直すくらいは無料でやってくれてもいいのでは、と思う。
実装結果
- 機能性: 8
- 操作性: 7
- 効果性: 8
これだけ英語で作られた。UIは硬く、あまりきれいではなかった。ハンドアウトの内容もかなりの部分がそのまま出てくる。それでも必要なものは揃っていて、3つの機能を個別に実行できる点は便利だった。
シミュレーションは選択式で進み、評価もしてくれるので、初心者が訓練するには良いと感じた。ただ、テキストが長すぎる面はあった。
4位 Flowith Neo - 35点(nターン後も未完成)
実装プロセス
- 効率性: 1
- 使いやすさ: 3
- 速度: 3
- コスト: 1
Web検索による追加プランニングは良い。しかし非常に多くの作業をするのに、3つのアプリを作る中で一度も完成できなかった。自分で回したあと再度プランニングしてバグ修正を試みるが直せない。メッセージごとの課金ではないため、試行と失敗を一人で繰り返してクレジットを大量消費する点に不満がある。
途中経過ごとにバージョンをパブリックURLへデプロイしてくれる。ただ、以前のバージョンのほうが良いことも多い。途中で実装に失敗した場合は手動で再実行が必要。コードはダウンロードしないと見られず、当然修正もプロンプト経由でしかできない。ビジュアル編集も不可。
実装結果
- 機能性: 9
- 操作性: 10
- 効果性: 7
最初のプランニングと途中のプレビューは非常に印象的。結局完成はできなかったが、またバージョンごとに違いはあったものの、他のアプリに取り入れたくなる要素は多かった。たとえば、より厳密な事前評価をしたり、さまざまなシナリオや難易度別で訓練できたりすることなど。UIも一部おかしなところを除けば美しく、最も細やかだった。
2件のコメント
私は
bolt.newを使っているのですが、これがどんな感じなのか比較してみたいですね。私も6月にはBoltハッカソンのために(総賞金100万ドル) https://www.stdy.blog/registered-at-vibe-coding-hackathon/ Boltをかなり使ってみることになりそうです。そのあとで比較してみるべきですね(笑)