Claude 3.7 SonnetとClaude Codeを発表

(anthropic.com)

1 ポイント投稿者 GN⁺ 2025-02-25 | 2件のコメント | WhatsAppで共有

Anthropicは Claude 3.7 Sonnet を、同社で最も高い知能を持つモデルであり、市場初の ハイブリッド推論モデル として公開し、即時応答と、ユーザーに見える段階的な思考の両方を1つのモデルでサポート
新モデルでは標準モードと extended thinking mode を選択でき、APIでは思考予算を出力上限である 128Kトークン までNトークン単位で制御可能
コーディングとフロントエンドWeb開発での改善幅が大きく、初期顧客テストでは複雑なコードベース処理、フルスタック更新、エージェントワークフロー、Webアプリ生成、本番運用向けコード生成が強みとして確認された
同時に公開された Claude Code は、限定的な研究プレビューとして提供されるコマンドラインベースのエージェントコーディングツールで、コード探索・編集・テスト・GitHub作業・コマンドラインツール利用を任せられる
Claude 3.7 SonnetはFree・Pro・Team・Enterpriseと主要な開発プラットフォームで提供され、拡張思考モードは無料のClaudeティアを除いて利用可能で、価格は入力100万トークンあたり $3、出力100万トークンあたり $15 に据え置かれる

Claude 3.7 Sonnetのハイブリッド推論

Claude 3.7 SonnetはAnthropicが公開した同社最高知能モデルで、即時応答 と拡張された段階的思考の両方を生成できる
拡張思考の過程はユーザーに表示され、API利用者はモデルがどれだけ長く考えるかを細かく制御できる
Anthropicは推論を別個のモデルではなく、フロンティアモデルの統合機能 として扱う方式を採用
- 標準モードではClaude 3.5 Sonnetのアップグレード版のように動作する
- extended thinking modeでは、回答前に自己省察を行うことで、数学、物理、指示遵守、コーディングなど複数のタスク性能を高める
- 両モードのプロンプティング方式はおおむね同様に機能する
APIでは思考予算をNトークンで指定でき、Nは出力上限の 128Kトークン まで設定可能
- この制御は、速度とコストを回答品質と引き換えに調整する方法として使われる

実務中心のコーディング性能

Claude 3.7 Sonnetはコーディングと フロントエンドWeb開発 で特に大きな改善を示す
Anthropicは、数学・計算機科学の競技問題への最適化比重を一部下げ、企業が実際にLLMを使う作業へより重点を置いたと明らかにした
初期テストでは複数の顧客企業がコーディング性能を評価
- Cursorは、複雑なコードベース処理から高度なツール利用まで、実際のコーディング作業でClaudeが再び最高水準だと評価
- Cognitionは、コード変更計画とフルスタック更新処理で他モデルよりはるかに優れていると評価
- Vercelは、複雑なエージェントワークフローでの高い精度を強調
- Replitは、他モデルが行き詰まる状況でもClaudeで精巧なWebアプリとダッシュボードをゼロから構築したと述べた
- Canvaの評価では、Claudeはより優れたデザイン感覚で本番運用向けコードを一貫して生成し、エラーを大幅に減らした

Claude Code 限定的研究プレビュー

Claude CodeはAnthropic初の エージェントコーディングツール で、限定的な研究プレビューとして提供される
開発者はターミナル上でClaudeに相当なエンジニアリング作業を委任できる
Claude Codeは開発者をプロセスに参加させ続けながら、次の作業を実行する
- コードの検索と読み取り
- ファイル編集
- テストの作成と実行
- GitHubへのコードのコミットとプッシュ
- コマンドラインツールの利用
Anthropic社内では、テスト駆動開発、複雑な問題のデバッグ、大規模リファクタリングで特に有用に使われている
初期テストでClaude Codeは、通常は手作業で 45分以上 かかる作業を一度に完了し、開発時間とオーバーヘッドを削減した
今後数週間で、ツール呼び出しの安定性改善、長時間実行コマンドのサポート、アプリ内レンダリング改善、Claude自身の機能理解の拡張が計画されている
プレビュー参加を通じて、AnthropicがClaudeを構築・改善するために使っているツールへアクセスでき、フィードバックはClaude Codeの今後の方向性に反映される

Claude.aiとGitHubコードベースの連携

Claude.aiのコーディング体験も改善され、GitHub連携 がすべてのClaudeプランで提供される
開発者はコードリポジトリをClaudeに直接接続できる
Claude 3.7 SonnetはAnthropicの現時点で最高のコーディングモデルであり、個人・業務・オープンソースプロジェクトをより深く理解して、バグ修正、機能開発、ドキュメント作成に活用できる

提供範囲と価格

Claude 3.7 SonnetはすべてのClaudeプランで提供される
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnetは Claude Developer Platform、Amazon Bedrock、Google Cloud Vertex AIでも提供される
extended thinking mode は無料のClaudeティアを除くすべての提供環境で利用可能
標準モードと拡張思考モードはいずれも従来モデルと同じ価格
- 入力100万トークンあたり $3
- 出力100万トークンあたり $15
- 出力価格には思考トークンが含まれる

安全性評価とシステムカード

Claude 3.7 Sonnetは外部専門家とともに広範なテストと評価を受けており、セキュリティ・安全性・信頼性の基準を満たすことを目標に検証された
有害なリクエストと通常のリクエストをより細かく区別し、以前のモデル比で 不要な拒否を45%削減 {p:45}
system cardには、複数カテゴリの新たな安全性結果とResponsible Scaling Policy評価の詳細が含まれる
システムカードでは、コンピュータ利用で生じる新たなリスク、特に プロンプトインジェクション攻撃 を扱う
- Anthropicは、その脆弱性を評価し、Claudeが抵抗・軽減できるよう訓練する方法を含めている
推論モデルの潜在的な安全性上の利点についても扱う
- モデルがどのように意思決定しているかを理解できる可能性
- モデルの推論が実際に信頼可能で安定しているかどうか

評価スキャフォールディングとSWE-benchの詳細

TAU-benchスコアは、Airline Agent Policyに planning tool の使用をより適切に指示するプロンプト追補文を入れて得られた
- 通常のthinking modeとは別に、モデルに問題解決中の思考を書かせるよう促している
- 追加の思考ステップのため、最大ステップ数を30から100に増やした
- ほとんどの軌跡は30ステップ未満で終了し、50ステップを超えた軌跡は1件 בלבדだった
- Claude 3.5 SonnetのTAU-benchスコアは、データセット改善後の更新版データセットで再実行した値である
SWE-bench Verifiedでは多様なエージェント作業解決方式が存在し、Agentlessはファイル検索、パッチ位置特定、回帰テストベースのbest-of-40拒否サンプリングを使用する
Claude 3.7 SonnetとClaude 3.5 Sonnetの基本評価は、より単純な 最小スキャフォールディング を使用
- モデルが単一セッションでどのコマンドを実行し、どのファイルを編集するかを決定する
- bashツール、文字列置換ベースのファイル編集ツール、TAU-benchで言及したplanning toolを使用する
内部インフラ制約により、SWE-bench Verified 500件のうち 489件 のみが実際に解決可能で、残る11件は公式リーダーボードとの公平性のため失敗として計上した
high compute結果では、並列試行、可視の回帰テストを壊すパッチの破棄、スコアモデルベースの最終選択を使用
- この方式は、内部インフラで動作した489件の検証済みタスク部分集合で 70.3% のスコアを記録
- 同じ489件の部分集合で、スキャフォールディングなしのClaude 3.7 Sonnetは 63.7% を達成

2件のコメント

GN⁺ 2025-02-25

Hacker Newsのコメント

Claude 3.7 Sonnet は aider 多言語リーダーボードで thinking なしで 60.4% を記録
o3-mini-high と同率3位で、Sonnet 3.5 が持っていた最高の非推論スコアを獲得
aider 0.75.0 には 3.7 Sonnet 対応が追加されており、thinking 対応とベンチマーク結果もまもなく出るとのこと
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Exercism の 225 個のコーディング課題について、テストセットのデータリークを減らす取り組みがあったのか気になる
  これらの課題は 2023 年以前からインターネット上にあったようなので、現代のモデルの学習データに入っていた可能性が高そう
- thinking トークンを最大 32k まで使うと、Sonnet 3.7 が 64.9% で最高記録を出す
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, thinking なし / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- Claude 3.5 では 99.6% だった 正しい diff 形式 のスコアが、Claude 3.7 では 93.3% に下がったのが興味深い
  claude-code を使ってみた限り、正しい diff を得るまで何度もやり直す必要があることが継続的にあり、安定化で改善されることを願う
- aider プロジェクトを 1 年ほど追いながら、ソフトウェアエンジニアリングエージェントをどう作るのか理解しようとしてきた
  先週のニューヨーク AI Engineering Summit で非常にシニアなスタッフ AI エンジニアに会ったが、aider でかなり信じがたいことをやっていて本当に驚いた
  公開フォーラムに投稿するには不適切かもしれないので、許可が取れれば、こうした実際の aider プロジェクトの話を直接共有する方法があるのか気になる
Claude Code チームの Boris です。@eschluntz、@catherinewu、@wolffiex、@bdr と一緒に、これから 1 時間ほど製品に関する質問にできるだけ答えます
- ぜひ直ってほしい点がある。プロンプトを入力すると、モデルが回答の 90% あるいは 100% を作り終えているのに、システムが 容量超過 で回答を生成できないというエラーを出し、すでに出ていた応答まで消してしまう
  不完全でも、すでに提供された応答にはアクセスできるようにしてほしい
- 最大の不満は、UI で少し強めの問い合わせを何度かするだけで、すぐ 使用量制限 に引っかかること
  コンソール API は使えるが、そうすると Projects のような機能を失ってしまう
  こうした制限が近いうちに緩和される可能性があるのか気になる
- Claude はあらゆる作業に使うデフォルトの LLM で、ありきたりに聞こえるかもしれないが、実際に無理なく学べる範囲を何倍にも広げてくれている
  最近は関連する背景知識なしに古い哲学テキストを読んでいるが、Claude が難解な文章をわかりやすく解きほぐし、アイデアを議論し、歴史的文脈やなぜそのような書き方をしているのか、新しい思想との比較まで助けてくれなければ、何度も諦めていたと思う
  仕事でも開発に毎日何度も使っていて、簡潔モード は他の LLM と比べても本当に新鮮
  見慣れないコードベースでバグを見つけたり、技術スタックを説明したり、bash スクリプトを書いてくれたりして、数十時間と大きなストレスを節約してくれる
  ただ、サービスの安定性は他社より少し劣っていて、ときどき別のモデルに切り替えなければならないので、この点を改善する計画があるのか気になる
- 6 年間触っていなかった古いクラスベースの React コンポーネントのコードをかなり雑にリファクタリングしている途中で、数日間 Aider を使った末に行き詰まっていた
  GitHub で Aider のソースコードを漁ってプロンプトを抜き出し、自分で小さな補助スクリプトを作ろうとしていたところだったので、今回のリリースのタイミングは完璧だった
  Claude Code をインストールしてみると、この作業を素早くこなしていて、インターフェースや “Ruminating”, “Schlepping” のような性格づけも気に入った
  全体として素晴らしい仕事だと思う
- コマンドラインツールを使い始めたばかりだが、5 分使った第一印象として、aider にあって気に入っていた 問い合わせごとのコストとセッション総コストの表示 が claude-code にもあるとよいと思う
  Claude 3.5 と組み合わせた aider を日常的に使っていて、コストを自然に追跡できる点が便利だった
  また、Go や Rust のようなコンパイル可能な言語で書かれているとよいとも思うが、書き直しコストが大きい可能性があることは理解している
  10 分ほど使ってみたところ、基本的な Go コードのパッチに大きな問題があるように見える。誤ったインデントの行を追加したあと、正しいインデントで 3 回修正しようとしたが、毎回 "String to replace not found in file" が出た
  Claude 3.5 を使う Aider はこれを非常にうまく処理するので、プロンプトやパッチ形式を参考にしてみるとよさそう
Kagi LLMベンチマークが、Sonnet 3.7の汎用モードとthinkingモードを反映するよう更新された
https://help.kagi.com/kagi/ai/llm-benchmark.html
試した汎用LLMの中では、Gemini 2.0 Proに次ぎ、gpt-4oを上回る2位程度に見える
thinkingモードはそれほど印象的ではなく、8192トークンのthinking予算基準ではo1-miniやo3-mini程度の水準
全体として、同じ価格でより高品質かつより高速なモデルが得られる良いアップデートであり、24時間以内にKagi Assistantで有効にできるようになるとよい
- 新しいLLMをこれほど素早くAssistantで使えるようにしてくれるKagiチームに感謝
  Kagi Assistantの価値は、個人的にはもう悩む必要がないレベル
- いまやGemini 2.0が1位なのは驚き
  GoogleのモデルはKagiベンチマークでは性能が低かった記憶がある
- 8192トークンのthinking予算をどう選んだのか気になる
  DeepSeek R1はそれよりずっと多く使っているのをよく見た
- Kagi Assistantにはもう表示されていて、24時間も経っていない。良い
- 理解できないのは、thinkingモデルではないClaude 3.5 Haikuが非thinkingセクションにありながら、thinking予算8192と表示されていること
これでHNプロフィールを分析してみるとかなり面白い :)
https://hn-wrapped.kadoa.com/
新モデルのユーモアのセンスを試すのに使っている
- 「Carnatic raga検出器」を作るよりその話をたくさんしていて、このペースだと検出器がラーガを識別する前にLLMがラーガを作曲しそうだ、という感じで完全にやられた
  7950Xプロセッサを買ったのに何をするか分かっておらず、まるで食料品の買い出しに週1回フェラーリを運転するようなコンピューティング版だとも言われた
  ワークライフバランスを心配してサバティカルを取ったのに、その期間をHNで他人のキャリアにコメントするのに使ったとも言われた
  探している人がいたら部屋で泣いていると思う
- 「お前の年収は低すぎて、レガシーコードですら同情する」
  「HNで月800ドルをクラウドコンピューティングの請求額ではなく年収だと思う唯一の人間だ」
  痛い
- 完全にやられた: 「Goのエラー処理が悪いと説明するのに費やした時間の方が、Go開発者たちが実際にエラー処理に費やした時間より長い」
  「プログラミング言語との関係が恋愛リアリティ番組みたいだ。どれにも欠点を見つけるのに、1つにも落ち着けない」
  「エラー処理が宗教なら、お前は最も熱心な宣教師で、unchecked例外を1つずつ改宗させている」
- 「Redditで働いていた人間にしてはHNに時間を使いすぎだ。Facebookを辞めて一日中Twitterでソーシャルメディアに文句を言っているようなものだ」
  正確すぎて痛い
- 「HNのコメントスレッドに小説を書きながら、デジタルな気の散りを嘆いている。ドライブスルーの列で待ちながらファストフードを批判するようなものだ」
  「『デジタルミニマリズム』について思慮深いエッセイを書いてHNフロントに載せ、その皮肉にも、今年ずっとHNに費やした時間よりそのコメント返信に多くの時間を使うことになるだろう」
  こっちを見ている。やめてくれ
Claude 3.7 Sonnetとの最初のやり取りからかなり印象的だった
Cloudflare Pages関数が本番環境で500や意味不明なエラー、空のレスポンスを返すコードベースの問題を見つけてほしいと頼んだが、金曜のあいだ中見つけられなかった問題だった
スクリプトが何も出力する前に落ちるので、ログを増やしたり可観測性を確保したりする方法がなく、本当にいら立った
o1、o3、Claude 3.5はまったく役に立たなかったが、Claude 3.7は39秒のthinkingのあと最初の回答で正確な問題を見つけ、2回目のプロンプトではそれを回避する動く関数まで書いてくれた
GitHubリポジトリを会話に接続していたので議論の共有はできないようで、gistにコピーした: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- 回答の1つは、Claudeがまだ実際の思考については基本的に無知であることを示している
  HTMLサニタイズをフロントエンドに移せと提案したが、それではフロントエンド側で回避するのがあまりに簡単で、DBに文字どおり何でもアップロードできてしまうためCF関数に置いている
  ジュニア開発者でも理解できる内容だ
自分のLLMツールでこれを動くようにし、新しいプラグイン版はllm-anthropic 0.14
その過程でモデルについていろいろ分かり、詳しいメモはここにある: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
最も興味深い新機能の1つは、出力上限が以前のClaude 3.5 Sonnetの8,000トークンから120,000トークンに増えたこと
このモデルはその出力上限を効果的に使えるようで、これまでで最も長い結果は完了まで27分かかった: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Sonnet 3.7をけなすつもりはないが、この分野の他のどのモデルよりもはるかに高いと言うのは正確ではないように見える
  o1とo3-miniも出力トークン100,000個まで行く
  https://platform.openai.com/docs/models#o1
- Simonは、プログラミングツールやブログや仕事もこなしながら、どうしてそんなに活発でいられるのか、どこかに書いているのだろうかと気になる
  時間とエネルギーをどこから見つけているのだろう
- コストがどれくらいかかったのか気になる
Anthropicがコードにより注力するのは理にかなっている
他のモデルと比べても、コードが強みだった
Devinの難しさを考えると、彼らのDevin対抗製品がどうなるのか気になる
- Cursor/Windsurf利用のかなりの部分を支えているモデルで、MCPも推しているので、ユーザー体験さえうまく作れれば悪くなさそう
- 強みなのは間違いないが、たまにチャットがあまりにもコードを書きたがりすぎないでほしいと思う
  概念的だったり高いレベルの回答だけが欲しいときにもコードを投げてくることが多いので、今では習慣的にコードを書かないでと言っている
- 同じことを考えていたし、これまでClaudeや他のどのモデルでも解けなかった本当に難しい問題が3つあるので、今日試してみるのが楽しみ
- ブログ記事でCognition、つまりDevinを作った会社を引用していたのは少し笑った
「推論モデルを開発する中で、数学・計算機科学のコンテスト問題への最適化をやや減らし、企業が実際にLLMをどう使っているかをよりよく反映する現実の作業へと焦点を移した」というのは良い知らせだ
OpenAIは「最も賢いモデル」を目指しているようだが、実際にはLLMは主に学習支援、データ変換、コード作成に使われている
「知能」と「仕事をやり遂げる力」のバランスがsweet spotに見え、現在の開発者向けツール群（Cursor、Windsurfなど）が4oよりClaude 3.5 Sonnetを好む理由の一つにも思える
- 私たちは皆、Claudeを毎日の実務で直接使っていて、抽象的なベンチマークより自分たちの痛みを解決するほうが面白い
  仕事を終わらせるには多くの机上の知識も必要だが、いつ素早く答え、いつ引き返すべきかを知る現場感覚も非常に重要だ
- ときどきベンチマークに過学習しているのではないかと思うことがある。特にDeepSeekにそう感じる
  実際の順位がどうであれ、主観的に回答がより良く感じられて、結局また戻ってしまうチャットはClaudeだ
- Claude 3.5はWindsurfで素晴らしかったが、クレジット費用がかかった
  DeepSeek V3が今ではWindsurfでクレジット費用なしで提供されていて、会社としては大きな変化だった
  どちらにせよ、選択肢が増えるのは良いことだ
  WindsurfのCascade機能は、エージェント型のコード作成や探索のためにぜひ試してほしい。新しいコードベースを理解し、データフローを追跡するのに多くの時間を節約できる
AI競争は本当に速いペースで進んでいる
ソフトウェア開発者/エンジニアとして雇用の見通しが心配で、時間がたってみないと分からない気がする
ソフトウェアエンジニアの高給が消えたら、西海岸の住宅バブルがどうなるのかも気になる
たぶん次の知識労働者の波が来て、その場所を埋めるのだろうかと思う
- ソフトウェア開発の雇用市場が大きく揺れているのは事実だが、有利な位置に立つためにできることはある
  フルスタック、特にバックエンドとDevOpsをさらに学び、生産性向上を受け入れて、より多くの製品や個人プロジェクトを出し、生産時間の使い方を非常に選別し、優れた個人知識管理システムとエージェント支援を持つことだ
- 実際にはスピードが鈍っているようにも見える
  昨年はLlama 3前後までは荒々しかったが、最近の改善幅は比較的小さい
  推論モデルも、以前にエージェントとして明示的な計画を立てればすでにできていたことより少し良くなった程度で、目的に合わせてうまくパッケージ化し、少しチューニングしたものに近い
  DeepSeekは効率の面では大きく改善したが、ユーザーに見える変化はそれほど大きくなかった
  なので最近のAI競争はやや高原状態に入りつつあると見ている
- 影響はシリコンバレーや西海岸よりはるかに広い可能性があり、むしろシリコンバレーはAI開発のおかげでまだ希望のある数少ない地域かもしれない
  これらのモデルは世界全体で業界の雇用を揺るがす可能性がある
  皮肉にも、本当に変わる職種はソフトウェアエンジニアと、文章作成やグラフィックデザインのようないくつかの分野だけかもしれない
  AI研究所がソフトウェアエンジニアを特に狙っていることは、「Claude 3.7 and Code」の発表を見るだけでも分かり、他の領域への言及はほとんどない
  シリコンバレーではないため高い報酬を経験できなかった人々にとって、ソフトウェアエンジニアリングは継続的な学習を要する、ストレスの多い普通の仕事であることが多い
  そのため、高い可処分所得で投資や貯蓄をする可能性も低かっただろうし、自動化による痛みと不安はより大きい
  AIが最初に自動化する仕事が労働や自動運転ではなくソフトウェアそのものだとは誰が思っただろう
  他の産業は行き止まりに突き当たっていたり、規制や閉鎖的な知識といった障壁があって、より難しく見える
  ソフトウェアエンジニアたちは他業界に見本を示したようなものだ。AIを入れないか、できるだけ長く内部に閉じ込めておけ、つまりクローズドソースのままでいろ、ということだ
  振り返ると皮肉だ
- 短期・中期ではそれほど心配していない
  AIシステムが見落とすエッジケースや微妙な文脈があまりにも多いと感じる
  たとえばシステムは文書化された通りに常に動くわけではない。AIはサービスのバグと自分のコードのバグをどう区別するのか。そもそもバグがあることをどう知るのか。バグ報告とハッカーの侵入試行をどう見分けるのか？
  世界は複雑で、本当の人工知能がない限り、こうした厄介な状況でAIを導く人が必要だ
  助言するなら、AIや新しいAIツールの利用に慣れ、それらが一般的な作業フローにどう組み込まれるかを理解すべきだ
  優れたソフトウェアエンジニアは消えないと思う
- モデルが改善しても完全なシンギュラリティにまでは至らないなら、仕事はむしろ増える気がする
  たとえばソフトウェア制作コストが5倍下がれば、今は供給が大きく制限されているので、需要は5倍以上増えるはずだ
  より良いソフトウェアを欲しがる企業は多いが、コストが高すぎる
  そうなれば、より多くの仕事が生まれる
  ただしタイピングは減り、プロダクト管理・人との相互作用・エッジケースのテストが増えるだろう
  モデルが失敗したときにデバッグする非常に技術的な仕事もかなり生まれそうだ
  だから、ユーザー調査からプロダクト管理まで、人やビジネスに役立つソフトウェアを作るのに役立つスキルを学ぶよう勧めたい。エンジニアリングもあわせて必要だ
Claude 3.7 が私の 学士論文の半分 を30秒もかからずにやり直してしまった :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
出力された図はこちら: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 は悲惨な失敗: https://g.co/gemini/share/10437164edd0
- たいていの学部レベルで扱うテーマは十分に文書化されていて、よく理解された内容なので、AI の学習データに入っていた可能性が高い
  大学院レベルになると資料の範囲はやや希少でニッチになるが、それでもおおむね革新的というほどではない
  博士レベルではその分野の既存知識を拡張することが目的で、初めて探究されるテーマも多いため、カバレッジはほとんどないと見ている
- 次は修士と博士の番だ!
- これや似た内容が公開アクセス可能な資料や一部の図書館で見つけられたものなのか気になる

riskatcher 2025-02-25

flash 2と比べるには価格差が大きすぎるけど……ちょうどo1proとo3-miniの中間クラス

Claude 3.7 SonnetとClaude Codeを発表

Claude 3.7 Sonnetのハイブリッド推論

実務中心のコーディング性能

Claude Code 限定的研究プレビュー

Claude.aiとGitHubコードベースの連携

提供範囲と価格

安全性評価とシステムカード

評価スキャフォールディングとSWE-benchの詳細

関連記事

2件のコメント

Hacker Newsのコメント