Anthropic、性能評価用テイクホーム課題をオープンソースで公開

(github.com/anthropics)

11 ポイント投稿者 GN⁺ 2026-01-22 | 1件のコメント | WhatsAppで共有

この課題を解いて Claude Opus 4.5の最高性能（1487サイクル） を上回れば、Anthropicにコードと履歴書を提出可能
初期バージョンは4時間制限だったが、その後 Opus 4 がほとんどの人間を上回ってしまったため、2時間制限バージョン に変更

Anthropicのオリジナル性能テイクホーム課題

リポジトリには Anthropicの初期性能評価用課題 のバージョンを収録
- Claude Opus 4.5 が2時間以内のパフォーマンスで人間を上回る前のバージョン
- 元は4時間制限の課題で、その後2時間版へ短縮された
2時間版は 18532サイクル（7.97倍高速な性能） のスターターコードをベースにしている
- 現在公開されているバージョンは最新の構成を維持しつつ、最も遅いベースラインコード に戻した形で提供される
Claude Opus 4.5 以降は 新しいベースラインコード が使われ始めた

性能ベンチマーク

すべての数値は シミュレートされたマシンのクロックサイクル単位 で測定
- 2時間版（18532サイクルのスターターコード）基準で測定した結果
主な結果:
- 2164サイクル: Claude Opus 4（テストハーネスで長時間実行）
- 1790サイクル: Claude Opus 4.5（通常のコードセッション、人間の最高水準に近い）
- 1579サイクル: Claude Opus 4.5（2時間のテストハーネス実行）
- 1548サイクル: Claude Sonnet 4.5（長時間のテストハーネス実行）
- 1487サイクル: Claude Opus 4.5（11.5時間のハーネス実行）
- 1363サイクル: Claude Opus 4.5（改善されたハーネス環境）
- 人間の最高性能 は上記数値より優れているが非公開

参加と提出案内

現在、この課題は 時間制限なしで誰でも挑戦可能
参加者が Claude Opus 4.5 の最高性能を上回る 1487サイクル以下に最適化 できた場合、Anthropicにコードと履歴書をメールで提出可能
- メールアドレス: performance-recruiting@anthropic.com
新しいモデルのリリース時に 性能基準が変更される可能性がある
テスト実行は python tests/submission_tests.py コマンドで可能

1件のコメント

GN⁺ 2026-01-22

Hacker Newsの意見

ALUとVALUのバランスを見つける中核課題が興味深かった
ただ、ロード帯域幅の問題がボトルネックとして作用しそうだと思った
開始インデックスが常に0だと仮定しないと、総ロード数を2096以下に抑えられないが、それでは面白くない
もし動的ベクタレーン回転(dynamic vector lane rotate) のような機能があれば、ずっと面白くなったと思う
自分ではかなり頭がいいほうだと思っているが、こういう問題を見ると自分がどれだけ知らないかを思い知らされる
平均よりは少し上かもしれないが、トップクラスの開発者たちとの隔たりを感じる
- コンピューティングは非常に広い分野なので、LinusやCarmackでさえ知らない領域は多い
  重要なのは、知らないことに直面して学んでいく力だ
- これは非常に特殊な問題なので、似たようなことをやったことがなければ時間がかかって当然だ
  自分も大学卒業後にハードウェア企業の面接で低レベルコード最適化の問題を出されたが、最初は完全に見慣れなかった
- 30年の経験があるのに、正直問題を理解できなかった
- 賢さと知識は別物だ
  こうした概念を学んで問題に取り組めば、誰でも解ける
  平均以下なのではなく、単に別の知識セットを持っているだけだ
- こういう姿勢は学習の動機になるので良い
  実際、これはそこまで複雑ではない
  コードを十分に読んで構造を理解すればよい
  本当の実力差は、プログラム全体のモデルを頭の中に描けるかにかかっている
Anthropicはこれを他のAI企業へのDDoS攻撃として公開したのではないかと思う
gemini CLIに「この問題をどう解く？」とプロンプトを入れたら、20分たっても止まらず回り続けている
- 最近のGemini CLIやJulesでは、時間は難易度の指標ではない
  「応答を準備中です。完了しました。出力します。」のようなループに陥ることが多い
  ループ検知後に停止されることもあるが、些細な作業でも15分以上かかるのを見ると構造的な問題のようだ
- どのGeminiモデルを使ったのか気になる
  自分はG3Proリリース以降に使ってみたが、性能はひどかった
複数のAIエージェントを同条件でテストした
結果としてAnthropicの目標を超えたモデルはなかったが、gpt-5-2が最も速く効率的だった
- codex CLI + gpt-5-2-codex-xhighで「beat 1487 cycles. go.」というプロンプトを与えたところ、1606まで到達し、約53分かかった
- Geminiを長時間ループさせたらどうなるのか気になる
  速度が速いことを見ると、潜在力はもっとあるのかもしれない
- モデルベンチマーキングを学びたい
  もしよければagent-comparison harnessコードを共有できるか気になる
- Qwen3-coder、GLM-4.7、Devstral-2のようなオープンウェイトモデルでも試してみてはどうかと提案する
- 各モデルのソリューションをディレクトリやブランチごとに集めた比較用リポジトリ(repo) を作ってくれるとありがたい
「1487サイクル以下に最適化できたらAnthropicにメールを送れ」という文言があったが、
こういう採用方法はかなり興味深い
普通のLeetcode問題よりずっと良いと感じる
- ただし、これは単に採用パイプラインに入るためのものだ
  その後は他の応募者と同じようにLeetcode面接を受けることになる
- こういう問題を解くにはフルタイムで1週間はかかりそうだ
  働きながら複数の会社に応募する人にとっては現実的ではない
  Leetcodeは使い回せるが、こうした最適化問題は再利用性が低い
本当に面白い問題だった
最適化に興味がある人ならぜひやってみることを勧めたい
自分は1週間、夜の時間を投じて1112サイクルまで削った
ほとんど手作業でやったが、最近のagenticモデルならもっと良い結果を出せるのかも気になる
- 「RalphWiggumで問題を解く」という表現は初めて聞いたが、面白すぎるので今後使いたい
この課題にはdemosceneやcode golfの雰囲気があると思う
Chrome tracingツールでプロファイリングするのも素晴らしい
問題コードのリンク
- 昔demosceneで活動していたが、こういう低レベル最適化は当時やっていたことに似ている
  ただ、どんなアルゴリズムを実装しているのか気になる
  ざっと見た感じではランダムフォレスト予測のように見えた
- perfettoはこうしたトレース可視化によく使われる
  自前でビューアを作る手間を省ける
- この課題は、手動でPTXコードを書ける人を選別しようという意図に見える
SIMD、PTX、最適化技法を学んでいる途中だったので、この課題は良い学習機会だった
ただ、take-home課題としては長すぎたと思う
実際には、アイデアをスケッチしてコードを読むだけで2時間ほど使ったと思う
- 2時間制限は応募者に与えられた時間ではなく、Claudeが最高性能を出すのにかかった時間のように見える
  実際の応募者は6時間から2日ほどかかったかもしれない
現在、Opusで1時間で1137サイクルまで到達した
パイプライン化されたベクトル化ハッシュ、投機実行、ステージごとの静的コード、各段階のプロローグ/エピローグなどを適用した
もう900未満も可能そうだ
ステージ4ではビット16と0だけを見ても、ステージ5の奇偶を並列計算できることに気づいた
- ロードのボトルネックをどう回避したのか気になる

Anthropic、性能評価用テイクホーム課題をオープンソースで公開

Anthropicのオリジナル性能テイクホーム課題

性能ベンチマーク

参加と提出案内

関連記事

1件のコメント

Hacker Newsの意見