- この課題を解いて Claude Opus 4.5の最高性能(1487サイクル) を上回れば、Anthropicにコードと履歴書を提出可能
- 初期バージョンは4時間制限だったが、その後 Opus 4 がほとんどの人間を上回ってしまったため、2時間制限バージョン に変更
Anthropicのオリジナル性能テイクホーム課題
- リポジトリには Anthropicの初期性能評価用課題 のバージョンを収録
- Claude Opus 4.5 が2時間以内のパフォーマンスで人間を上回る前のバージョン
- 元は4時間制限の課題で、その後2時間版へ短縮された
- 2時間版は 18532サイクル(7.97倍高速な性能) のスターターコードをベースにしている
- 現在公開されているバージョンは最新の構成を維持しつつ、最も遅いベースラインコード に戻した形で提供される
- Claude Opus 4.5 以降は 新しいベースラインコード が使われ始めた
性能ベンチマーク
- すべての数値は シミュレートされたマシンのクロックサイクル単位 で測定
- 2時間版(18532サイクルのスターターコード)基準で測定した結果
- 主な結果:
- 2164サイクル: Claude Opus 4(テストハーネスで長時間実行)
- 1790サイクル: Claude Opus 4.5(通常のコードセッション、人間の最高水準に近い)
- 1579サイクル: Claude Opus 4.5(2時間のテストハーネス実行)
- 1548サイクル: Claude Sonnet 4.5(長時間のテストハーネス実行)
- 1487サイクル: Claude Opus 4.5(11.5時間のハーネス実行)
- 1363サイクル: Claude Opus 4.5(改善されたハーネス環境)
- 人間の最高性能 は上記数値より優れているが非公開
参加と提出案内
- 現在、この課題は 時間制限なしで誰でも挑戦可能
- 参加者が Claude Opus 4.5 の最高性能を上回る 1487サイクル以下に最適化 できた場合、Anthropicにコードと履歴書をメールで提出可能
- メールアドレス: performance-recruiting@anthropic.com
- 新しいモデルのリリース時に 性能基準が変更される可能性がある
- テスト実行は
python tests/submission_tests.py コマンドで可能
1件のコメント
Hacker Newsの意見
ALUとVALUのバランスを見つける中核課題が興味深かった
ただ、ロード帯域幅の問題がボトルネックとして作用しそうだと思った
開始インデックスが常に0だと仮定しないと、総ロード数を2096以下に抑えられないが、それでは面白くない
もし動的ベクタレーン回転(dynamic vector lane rotate) のような機能があれば、ずっと面白くなったと思う
自分ではかなり頭がいいほうだと思っているが、こういう問題を見ると自分がどれだけ知らないかを思い知らされる
平均よりは少し上かもしれないが、トップクラスの開発者たちとの隔たりを感じる
重要なのは、知らないことに直面して学んでいく力だ
自分も大学卒業後にハードウェア企業の面接で低レベルコード最適化の問題を出されたが、最初は完全に見慣れなかった
こうした概念を学んで問題に取り組めば、誰でも解ける
平均以下なのではなく、単に別の知識セットを持っているだけだ
実際、これはそこまで複雑ではない
コードを十分に読んで構造を理解すればよい
本当の実力差は、プログラム全体のモデルを頭の中に描けるかにかかっている
Anthropicはこれを他のAI企業へのDDoS攻撃として公開したのではないかと思う
gemini CLIに「この問題をどう解く?」とプロンプトを入れたら、20分たっても止まらず回り続けている
「応答を準備中です。完了しました。出力します。」のようなループに陥ることが多い
ループ検知後に停止されることもあるが、些細な作業でも15分以上かかるのを見ると構造的な問題のようだ
自分はG3Proリリース以降に使ってみたが、性能はひどかった
複数のAIエージェントを同条件でテストした
結果としてAnthropicの目標を超えたモデルはなかったが、gpt-5-2が最も速く効率的だった
速度が速いことを見ると、潜在力はもっとあるのかもしれない
もしよければagent-comparison harnessコードを共有できるか気になる
「1487サイクル以下に最適化できたらAnthropicにメールを送れ」という文言があったが、
こういう採用方法はかなり興味深い
普通のLeetcode問題よりずっと良いと感じる
その後は他の応募者と同じようにLeetcode面接を受けることになる
働きながら複数の会社に応募する人にとっては現実的ではない
Leetcodeは使い回せるが、こうした最適化問題は再利用性が低い
本当に面白い問題だった
最適化に興味がある人ならぜひやってみることを勧めたい
自分は1週間、夜の時間を投じて1112サイクルまで削った
ほとんど手作業でやったが、最近のagenticモデルならもっと良い結果を出せるのかも気になる
この課題にはdemosceneやcode golfの雰囲気があると思う
Chrome tracingツールでプロファイリングするのも素晴らしい
問題コードのリンク
ただ、どんなアルゴリズムを実装しているのか気になる
ざっと見た感じではランダムフォレスト予測のように見えた
自前でビューアを作る手間を省ける
SIMD、PTX、最適化技法を学んでいる途中だったので、この課題は良い学習機会だった
ただ、take-home課題としては長すぎたと思う
実際には、アイデアをスケッチしてコードを読むだけで2時間ほど使ったと思う
実際の応募者は6時間から2日ほどかかったかもしれない
現在、Opusで1時間で1137サイクルまで到達した
パイプライン化されたベクトル化ハッシュ、投機実行、ステージごとの静的コード、各段階のプロローグ/エピローグなどを適用した
もう900未満も可能そうだ
ステージ4ではビット16と0だけを見ても、ステージ5の奇偶を並列計算できることに気づいた