9 ポイント 投稿者 princox 2026-03-07 | 6件のコメント | WhatsAppで共有

Rubyコミッターである筆者が、Claude Codeに13言語でミニGitを実装させ、時間・コスト・コード行数を測定したベンチマークです。各言語あたり20回ずつ、合計600回実行し、モデルにはClaude Opus 4.6を使用しました。

結果は Ruby($0.36) → Python($0.38) → JavaScript($0.39) の順で速く安価であり、静的型付け言語は1.4〜2.6倍遅く、コストもより高くなりました。型チェッカーを追加すると、Python/mypyは1.6〜1.7倍、Ruby/Steepは2〜3.2倍遅くなりました。コード行数が少ないOCaml・Haskellは thinking トークンの消費が多く、中位から下位にとどまりました。

筆者は「30秒と60秒の差は集中力と開発フローに影響し、開発速度そのものが品質の一側面だ」と強調します。ただし、プロトタイピング規模の単一タスクという限界があり、大規模では静的型付けが有利な可能性があるとも付け加えています。​​​​​​​​​​​​​​​​

6件のコメント

 
savvykang 2026-03-08

言語特性以外の変数が混入した総計を測定したものに見えます。GitHubには実験ごとの所要時間の結果はありますが、実行ログはありません。最も一般的な測定指標である個別タスクごとの所要時間すら確認しにくく、LLMの出力特性上、再現も不可能に見えます。

著者自身も、プロトタイプ段階の一回限りの作業であることを限界の項目で認識しています。それにもかかわらず、全体として透明性が不足しており、変数統制もなされていない実験だと思います

 
princox 2026-03-09

さまざまな言語を1つの大規模な実験で比較してくれたらいいのですが、
あの程度のテストを企業単位でやってくれるわけでもなく、コミュニティの一員が行うとなると正確な実験は難しいでしょうね。

いろいろ探し回ってみても、納得できる情報を見つけるのはなかなか簡単ではありません。

それも当然で、自分の費用をかけてどの言語がより良いのかをきちんと設計して実験してみる人がいるのかという話で……

私も限界の多い実験だとは思いましたが、それでもせめて試みを見ることができただけでも良かったと思いました..^^

 
happing94 2026-03-07

あのルビーってやつ
Ruby の作者がテストしたんだから、Ruby がいいって言うだろう

 
spp00 2026-03-08

でも、Ruby の特性上、トークン消費量が少なくならざるを得ないんです。短くコードを書きやすいので、その分、出力トークン数などでのトークン消費が減ります。

 
princox 2026-03-09

はは、Ruby言語のコミッターなので、少し偏っているかもしれないことを認めたうえで読む必要があります。

 
skageektp 2026-03-07

どの言語実装を一番信頼する?って言われたら…(笑)