- Claude 3.5 Sonnet は、対話型AI分野で現時点で最も優れたモデルである
- Claude 3.5 Sonnet は Claude.ai と Claude iOS アプリで無料で利用可能。より高い利用上限を望む場合はサブスクリプションも可能
- 文書構造をできるだけ維持しつつ内容を要約し、Markdown を使って見やすく整理している
- 速度は Claude Opus 比で 2 倍速く、コストも低い
- 新しい Artifacts 機能を導入し、コード、文書、Webサイトデザインなどを別ウィンドウでリアルタイムに表示・編集できる
- OpenAI、Google DeepMind、Anthropic はいずれも高性能な大規模モデルを開発しているが、現在は高速・低コストで優れた性能を出すモデルに注力する流れとなっている
ベンチマークと評価結果
- 多くのベンチマークで既存モデルを上回る性能を示した。特に GPQA で圧倒的な 1 位
- Artifacts を用いた動作型コーディング評価で 64% の問題を解決し、以前のモデル(38%)を大きく上回った
- 専門家による法律、金融、哲学など多様な分野の評価でも 82%~73% の高い勝率を記録
- 視覚認識能力も改善されており、追加プロンプトによって顔認識機能を制限するよう設計されている
新しい Artifacts 機能
- Artifacts 機能により、対話の横のウィンドウでコード、文書、Webデザインなどをリアルタイムに生成・編集できる
- 対話型AIが協業作業環境へ進化する第一段階と評価されている
- 今後はチーム協業を支援し、組織レベルのナレッジ管理ツールへ発展することが期待されている
安全性と倫理性の検討
- Claude 3.5 Sonnet は ASL-2 レベルを維持しており、懸念すべき能力はまだない
- 英国人工知能安全研究所(UK AISI)がリリース前の安全性評価を実施
- 拒否率の面でも以前のモデルに比べて改善が見られる
- ユーザーデータをモデル学習に使用しない原則を堅持している
- フロンティア技術の開発については留保的な立場を取っているが、明確な約束はしていない
ソフトウェアエンジニアリングへの影響
- Claude 3.5 Sonnet はエンジニアのコーディング作業を大きく向上させる。ボトルネックを自動で解消し、文書化まで行う
- プルリクエストのテスト通過率が Opus の 38% から Sonnet の 64% へ大きく改善
- Anthropic 社内でも、非専攻者から熟練エンジニアまで全員が Claude を活用して大幅な時間節約を実現している
- エンジニアの作業時間を大きく短縮し、誰もが容易にコーディングできるようにすると期待される
- AI 技術を活用したエンジニアリング生産性の向上が加速する見通し
モデルの限界
- 依然として一部の有名なパズルやゲームではミスをする。文脈情報を与えると解ける場合もある
- 精巧な欺瞞や攻撃に脆弱である可能性がある
- 特定の問題に固執せず、全体的な推論能力の向上に注力したように見える
- 依然として人間が生成した知識を活用する段階であり、根本的な限界は残っている
ユーザーの反応
- 物理学、化学、機械工学などの専門分野で驚くべき性能を示している
- SVG 画像生成、Webアプリ開発、3D シミュレーションなど、多様な Artifacts 活用事例が相次いでいる
- 一方で、依然として人間の創造性を超えてはいないという意見もある
GN⁺ の意見
- Claude 3.5 Sonnet の登場により、対話型AI技術は大きく前進する転換点を迎えた
- 速度とコストの面で大幅に改善され、多様な分野で活用度が高まると見られる。特に SW エンジニアリング分野の生産性向上に大きく貢献する見通し
- Artifacts 機能により、単なる対話を超えて実業務に活用できる協業ツールへ発展する可能性を示している。長期的には企業のナレッジ管理システムへも発展しうる
- 安全性と倫理性の面での Anthropic の努力は高く評価できる。しかし、まだ完全ではなく、継続的な研究と監視が求められる
- GPT-4 など他の巨大モデルとの競争が加速することで、AI 技術の進歩はさらに速まると見られる。長期的には人間レベルの AGI 開発の可能性も排除できない
- 総合的に見て、Claude 3.5 Sonnet は現時点で最高の対話型AIと評価するに値する。個人と企業の生産性革新に大きく寄与する一方、社会的影響への備えも必要な時期である
1件のコメント
Hacker Newsの意見
プロジェクト機能: Anthropicのプロジェクト機能は便利で、複数のプロジェクトを同時に進められる点が良い。ただし、各プロジェクトのコンテキストウィンドウは小さく感じられることがある。今後、より大きなコンテキストウィンドウに期待したい。
Claude 3.5 Sonnet: Claude 3.5 Sonnetのコーディング能力は非常に впечатляющий。専門のプログラマーがより速く作業できるよう支援してくれる。高品質なコードのためには、詳細な指示と結果の評価が必要だ。
コーディング実験: AnthropicのAPIとともにコーディング実験を行い、プロジェクトの95%以上がClaudeによって書かれた。成果物は高い品質を誇る。
Sonnet 3.5の一貫性: Sonnet 3.5は一貫性に優れており、以前のモデルよりも安定した応答を提供する。これは大きな進歩だ。
コーディング能力の評価: GPT-4のコーディング能力には満足していない。応答速度が遅くなったため、他の選択肢を探している。
AI比較: Claudeは人間のように聞こえ、データに関する質問に強い。GPT-4は論理的推論でより優れている。価格と出力速度は似ている。
ベンチマークグラフ: ベンチマークグラフが加速しているという主張には同意しない。より詳細なグラフが必要だ。
アカウント停止: Anthropic Sonnetで、アカウントが自動レビュー後に停止された。そのため、OpenAIのサブスクリプションを好むようになった。
最先端技術: 現在の競争的なAI開発環境は興味深い。このような時代を直接体験できるのは楽しい。
AIの要約機能: AIがさまざまなデザインオプションや新しい技術スタックを要約してくれるのは非常に有用だ。コード例付きでも会話コストが安い。
MLモデルの底上げ: 同じデータセットを使えば、似たような性能のモデルが出てくる。データがモデル性能の差を生む可能性がある。ML技術は依然として共通している。