Devin、最初のAIソフトウェアエンジニア

(cognition-labs.com)

15 ポイント投稿者 GN⁺ 2024-03-13 | 2件のコメント | WhatsAppで共有

Devinは世界初の完全自律型AIソフトウェアエンジニア
Devinは人間のエンジニアと協働して、あるいは独立して作業を行い、エンジニアがより興味深い問題に集中できるようにする
Devinは複雑なエンジニアリング作業を計画・実行でき、シェル、コードエディタ、ブラウザなどの開発者ツールを使える

Devinの能力

Devinは長期的な推論と計画において進歩を遂げており、数千もの判断を下しながら複雑なエンジニアリング作業を遂行できる。
ユーザーと協力し、進捗をリアルタイムで報告し、フィードバックを受けながら設計上の選択を一緒に行える。
Devinは未知の技術を学び、アプリを構築してデプロイし、コードベースからバグを見つけて修正し、自身のAIモデルを学習・ファインチューニングできる。

Devinの性能

SWE-benchコーディングベンチマークにおいて、Devinは実際のGitHubイシューを解決する能力で、従来の最高記録1.96%を大きく上回る13.86%の成功率を示した。
Devinはデータセットのランダムな25%サブセットで評価され、他モデルが編集すべき正確なファイルを教えられる支援を受けた一方で、Devinは支援なしで実行した。

Cognitionの紹介

Cognitionは推論に重点を置く応用AI研究所。
今日のAIツールを超える能力を持つAIチームメイトの開発を目指している。
CognitionはFounders Fund主導の2,100万ドルのシリーズA投資を受けており、業界リーダーの支援を受けている。

Devinを採用する

Devinは現在初期アクセス段階にあり、エンジニアリング作業でDevinを使いたい場合はCognitionに連絡できる。

私たちに参加してください

Cognitionのチームは小規模で、創業チームはIOI金メダル10個を保有し、Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuroなどでの勤務経験を持つリーダーやビルダーで構成されている。
Devinを構築することは第一歩にすぎず、最も難しい挑戦はまだ残されている。

GN⁺の意見

DevinというAIソフトウェアエンジニアはソフトウェア開発の未来を象徴しており、自動化とAIの組み合わせによってエンジニアリング作業の効率を大幅に向上させる可能性がある。
AIが実際のエンジニアリング課題の解決でこれほど高い成功率を示したことは注目に値する成果であり、AI技術の進歩が実務環境にどれほど適切に統合できるかを示している。
しかし、AIが人間の仕事を代替することによる倫理的・社会的影響については検討が必要だ。AI導入が雇用に与える影響や人間の役割の変化について、慎重なアプローチが求められる。
類似の機能を提供する他のAIベース開発ツールとしてはGitHub Copilotがあり、これは開発者のコーディングを支援するツールとして広く使われている。
Devinのような技術を導入する際には、データセキュリティ、個人情報保護、そしてAIの判断における透明性と責任の問題を考慮する必要がある。AIの判断がビジネスとユーザーに与える影響を理解し、管理することが重要だ。

2件のコメント

yangeok 2024-03-13

Devinを無料で使ってみたいですね

GN⁺ 2024-03-13

Hacker Newsの意見

開発者でありプロダクト担当者でもある立場として、AIを使ってコーディングを試みたが、コンテキスト長、モデルの貧弱な出力、アーキテクチャの欠如などにより失敗した。Leetcodeの補助を超える有用な作業をAIでこなすことはできなかった。シンプルなHTMLページからセレクタを抽出する作業も複数のAIモデルで試したが成功しなかった。技術の進歩への期待は大きかったが、実際にきちんと動作する製品を求めている。
人間は意味と充足感を与えてくれる仕事を求める。技術の進歩によって職人たちが最初に不要になる。社会は、価値を生み出さなければ尊厳を認めないというメッセージを送っている。芸術やエンジニアリングをAIに任せることで、理解していない人でも安価に利用できるようになる。技術の進歩が誰の利益になるのか、そして未来における人間の居場所はどこなのかという問いを投げかけている。
Scott Wuは1989年以来の満点獲得者のごく一部の1人であり、競技プログラミングのオリンピックで出会った。彼がその驚異的な才能を生かしているのを見てうれしい。
認証なしで任意のサイズのファイルをアップロードできるWebサイトにはあまり感心しない。500MBのファイルをサーバーにアップロードした。
AIが優れているなら、良い用途に使うべきだ。シニアソフトウェアエンジニアとして言えば、コードを書くことは仕事の90%ではなく、複雑な要件を明確なタスクに分解し、要件の抜けを見つけ、最小限のコードを書き、コードベースを理解することが本質だ。「AIソフトウェアエンジニア」よりも「AI対人担当者」が必要だ。
デモは印象的だが、範囲が限定されているため、実際の状況でどれほど機能するのか疑問だ。ソフトウェアアーキテクチャができるのか、解決策が単なる再生産にすぎないのではないか、そして解決策が90%しか正確でなくては困るケースがどれほど頻繁にあるのかが気になる。
バックエンド開発の経験がある者として、LLMは基本的なライブラリ／フレームワーク／言語をよく理解しているとき、コード生成において驚くべき生産性向上をもたらす。しかし、依然としてすべてを理解している必要があり、AIが自動ですべてをやってくれるわけではない。
デモは印象的でリリースも祝福したいが、Devinが直面するバグが単純な修正で解決可能なものなのか気になる。たとえば、KeyErrorを解決するためにtry-catchでコードを囲めば実行はできるが、常に理想的な解決策とは限らない。
LLMはまだ「韻を踏む」段階にある。「理性的思考」へ進めるかどうかは未知数だが、コーディングには複雑な問題に対する理性的思考が必要だ。変化のスピードを考えれば、どんな可能性も排除はしない。
この分野で働く者として、コーディングにおけるAIの利用は現時点では補助ツールと高度なオートコンプリートのレベルだ。Pythagoraのような企業も人間の介入が重要だと見ており、LLMは指示に従って素早く動く熱意あるジュニア開発者のようなものだと考えられる。内部プロンプトと人間によるわずかなガイダンスがあれば、驚くべき結果を出せる。

Devin、最初のAIソフトウェアエンジニア

Devinの能力

Devinの性能

Cognitionの紹介

Devinを採用する

私たちに参加してください

GN⁺の意見

関連記事

2件のコメント

Hacker Newsの意見