数か月前から韓国の開発界隈を見ていると、「トークン使用量こそが実力だ」のような奇妙な主張が出回っていました。
そして、よくできたPRDが1つあればAIがすべて解決する、という無茶なことまで言っていたのです。
最初は、コミュニティでよくある大げさな騒ぎだと思っていたのですが、そうした主張がまるで真実であるかのように繰り返し現れるのを見て、一瞬は自分が遅れているのかと考えたりもしました。
(Oh-my-OpenCodeのようなものを見て、なおさらです。)
ですが実際に探してみても、まともな事例を1つ見つけるのも難しく、再現は事実上不可能でした。
アメリカのfrontierコミュニティではそうした主張はまったく見られず、そこにOpenClawが登場して成功し、OpenAIが創業者をすぐにスカウトしていくのを見て、私はさらに確信を深めました。
(OpenClawの主要な哲学がHITL(Human In The Loop)であるのを見て、です。)
ああ、自分が遅れていたのではなく、韓国コミュニティの宗教じみた誇張と幻想が出回っていたのだ、と。
昨日、OpenClawの創業者も
コードを作って一晩中実行させることはできますが、その結果は結局、最高のゴミになります。
と言っていて、
YC CEOのGarry Tanも100%共感するとしています。
https://x.com/garrytan/status/2043738478220062813?s=20
ここ数か月、こうした幻想的な主張によって私が直接・間接に被害を受ける状況を見てきて、もうこれ以上は我慢できません。
そういう主張をする人たちは打倒されてほしいです。
私は5年前からCodexを使っている、AIに非常に楽観的な人間です。
いつかは、ああした完全自動化も実現すると思っています。世間で言われているように来年かもしれないとも思います。
ですが、少なくとも今日はそうではありません。
66件のコメント
その主張が本当なら、Anthropic、Google、OpenAI は既存のあらゆるソフトウェアを置き換えてなお余りあるはずでしょう。
社内でも今、トークンをたくさん使わないと
実績を良く評価してもらえないような妙な空気が生まれているようです。
いったい誰の頭から出てきた話なのか…
あの集団の文章を見るたびに、本当にじんましんが出そうです
この記事は、あえてこのように書かれたのかなという気がします。
ただ、こういう点もあります。
3年前に私たちが皆で話していたのは、AIのコストはいずれ安くなるだろう、ということでした。
しかし、そうではありませんでした。むしろ高くなっています。中国のAIモデルですら同様です。
そのため最近では、複数のティアのモデルを1つの作業の中で切り替えて使うことでコスト削減を図る方法や、いっそオープンソース、とりわけ gemma 4(reasoning trace がはるかに短い)などをローカルで動かしてエージェントに活用する方法などが話題を集め始めています。これは当初は皆が反対していた話でしたが、今では非常に合理的に見えるようになり、関連するさまざまな動きが現れています。同じくAIは、いまは正解のない争いでありながら、最終的には勝者が多くを得るだろうという確信の産業へとつながっています。
結論としては、私はそういう意味なのだと思います。
ノイズ、これはAIフロンティア企業の広報活動にも非常に大きく現れています。では、こうした企業が間違っているから使わないのかというと、そうではありません。間違いなくAIは使うでしょう。ただし、ノイズに関する情報を見極めて受け取ればよいのです。不満を感じているときはなおさらです。
不要なアクション、これは投資でも同じです。投資で成果を上げた人は、すでに失敗を味わったことがある人である可能性が高いです。私は「絶対に」損失を出さない、というマインドでは、そもそも投資を始めること自体が難しいですし、下落相場では投資しなかったことへの安堵感と、投資した人たちへの憐れみしか感じず、実際に上昇相場では挫折感だけを感じることになるでしょう。同じように、結局AIも、ずっと見続け、使ってみて、いろいろ試してみた人のほうが有利です。私はこれを非開発者の方々に対して、より強く感じます。開発の知識はなかったものの、継続して活用し、探究しながら開発知識を学び、よりよいソフトウェアを作り出している方々がいます。こうした「熱意」のある人には、思っている以上に勝ちにくいです。私自身もこれを本当に強く感じていて、いつでも自分の熱意が失われないよう努力しているのだと思います。
結論として、ralph も虚像の概念というわけではなく、一種の industrial engineering の概念であり、test-time computing の側面における advantage が証明された手法です。もちろん虚像だと言うこともできるでしょうが、それでも関心を持って再現しようとしたその経験は、大きな財産になると思います。
ノイズを聞き流せばいいのはその通りですが、「不快なら姿勢を正して座り直せ」式の話には注意すべきだと思います。不満を示すこと自体まで問題視し、「不適応者のように振る舞うな、早く適応して勝者になれ」というようなメッセージが、今のような盲目的な結果主義につながるのだと思います。もちろん、そういう意図での発言ではないのだろうとは思います。
そして、ralph のような looping であれ、複数のモデルに交互に尋ねる ensemble 方式であれ、subagent orchestration であれ、こうした test-time computing 手法の利点が証明されたわけではありません。そもそも今の LLM には people pleasing behavior が注入されているので、この過程で出てくる結果をよく見ると、実際に直すべきものを直すというより、「直せ」と言われたから存在しない問題を作り出して直してしまうことも多いんですよね。
素早い経験が最大の資産になる、というのが今の時代を貫く言葉であることには同意しますが、これを私益のための道具として活用することを超えて悪用するのは、批判されて当然だと思います。元の投稿の主題も、「[とにかく早く大量に、誰よりも先に] が成功する AI ベース開発シナリオであるかのように過大包装されるのが嫌だ」ということなのだと思います。
投稿者さんのコメントを今確認しました。
コメントの更新がうまく反映されていなかったようですね。
ご意見ありがとうございます。
ひとまず、私の意見もお伝えしたいと思います。
不満(私は不満だとは考えていません)を示したこと自体を問題視しているというより、私自身もこうした現象について意見を述べたものだと受け取っていただけるとよいかなと思います。全員が満足する状況を作るのは不可能ですから、元の投稿の投稿者さんやコメントを書かれた方の意見も尊重します。ただ、私の意見もまた尊重されるべきではないか、という考えがあります。
test-time computingは、私の考えではすでに研究によって実証された事例だと思います。ただし、ensemble 方式はtest-time computingの概念というより、context window size の限界を避けるための方法だと見ています。『直せるものを直すというより、直せと言われたから存在しない問題を作って直してしまう場合も多いんですよね。』この点に関する問題は実際に明確に発生しているので、これを harness でできる限り遮断しようというのが現時点での最善のように思います。そして最後に、「バイラル」ということについて、私もかなりノイズがあり、嫌う人が多いという点には同感です。ただ、ハーネスを作っている人たちは実際にはオープンソースとして公開した人たちでもあるので、私益のためにやっていると言えるものがあるのか、さらには嫌っている人たちに対しても無料で提供しながら批判まで受けているこの状況で、私益と呼べるものがあるのかについては疑問があります。もちろん、恐怖心を煽って販売するのであれば、それは間違った行為であり、批判され得る行為だという点には同意します。
改めて、投稿者さんのご意見に感謝します!
3年前より実際にははるかに安くなりましたね。
GPT-4の時代には有料版を使っていても、数時間後にまたやり直せというメッセージが出ましたが、今は22ドルのプランを使っていてもそんなことはありません。
トークン単位あたりの知的能力は、比較が難しいほど向上しています。
しかし重要なのは、それ以上に多くのトークンを使いながら、LLMプロバイダーにより多くのお金を払っているということです(ジェボンズの逆説)。
Ralph Loopを使ったことがないわけではありません。
それよりも優れたsub-agent driven developmentも試しました。
ですが、私の経験でも結局の結論はOpenClawの創業者が言ったことと同じでした。
本当に完全自動化が実現すれば、Ralph Loopのようなものも無理に必要としなくなるでしょう。
最も重要なのは、実際にまともなコードもサービスも作り出せないという点です。
投稿者の方の意見には共感する部分があります。
トークン単価あたりの知的能力や、GPT-4と比較した価格などについては同感です。
ただ、トークン価格はいったん下落傾向だったものの再び上がってきており、推論トークン、タスクあたりのトークン使用量、個人ごとのトークン使用量を踏まえると、この影響は個人ユーザーやAIサービス運営者の立場からするとかなり厳しくなっています。これが、Cursor、Intercom、Shopify、Chromaなどでオープンソースベースの独自モデルを作り始めた理由です。価格競争力をまったく持てない水準になってしまったわけです。
実際のところ、ralphというものはこじつけというより、whileベースのbash scriptでした。それだけ単純な構造だったということです。ここで私たちが理解すべきなのは、システム化できるかどうかの勝負なのだと思います。自動化というのも、intentを正確に抽出し、task splitionを雑にせず正確に行い、それを正確に実行してエラーなく完全に実装できるのか、できないならどの部分を実行すべきかを見極めるプロセスです。
ただ、共感するのは、それらすべての作業がいわゆる「カチッ」で済めばいいのですが、実際にやってみるとおそらく感じられたように、まったくそうではないという点で、むしろコード作業以上に多くの設定をしなければならない感覚を与えるのが、現在の問題のように見えます。そしてサービスも、一般的には体感できるほどのものがないということです。
ただ、私がはっきり感じているのは、ほとんどの人はdocumentationをそれほどうまくできないということです。整理があまり得意ではないため、何かをシステム化するのが難しく、だからこそこういう類いの作業を進めるのにかなり苦労しているのを多く目にしてきました。そしてAIも完璧ではありません。そういう点で、私はこれを機会だと感じています。この作業を続けてきた人とそうでない人の間には、かなり大きな差が生まれると思います。耐性のある人は素早く適応し、さまざまな事情でそうできなかった人たちはさらに遅れ、不安に飲まれてしまう気がします。実際、投稿者の方のおっしゃる通り、これは「恐怖」を抱くようなことではないのでは? という捉え方のほうが、よりよい方向性なのだと思います。
私の言いたいことは、
while loopは無理やりな仕組みだということです。そもそもあれが出てきた理由は、LLM が agentic task をうまくこなせず、早期終了(EOS token を返す)してしまったからですよね。
本当に究極の AGI に準ずるモデルが出てくるなら、
while loopを使う必要もなくなるでしょう。私の documentation の能力は不足しているかもしれませんが、Garry Tan や Peter Steinberger はそうではないでしょうし。
もしそれが LLM がまともに動作しない問題なのであれば、本当に再現可能な best practice のデモを見せれば済む話です。
ですが、私はそういうものを一度たりとも見たことがありません。
私も投稿者の意見に共感します。
LLMがチャット可能でコミュニケーションできるシステムだという経験的な側面のために、歪みが生じている部分もあるように思います。
貴重なご意見ありがとうございます。
それでは、どのような best practice demo が必要だとお考えでしょうか。
どのような作業がどのように実装されたときに、Ralph loop が幻想なのかそうでないのかを判断できるのか、ご高見を伺えれば幸いです。
ほぼ完璧なPRDひとつでRalph Loopを回して、Production-readyなレベルまで開発を完了させる、ということですね。
誰が見てもAIスロップのようには見えないように。
ああ、では完成度の高いPRDを1つ用意して Ralph Loop を回せば、ある程度の製品を作れるのでしょうか?
Channel Talk のAIチャットを作ればよいのでしょうか?
そして、もう1つお伺いしたいです。
もしかして、ハーネスというものを設定して進めてもよいのでしょうか。
はい、ハーネスでも、multi-agentでも、sub-agentでも構いません。
ご意見ありがとうございます!
そうですね。こういう事例を作れるといいですね(笑)
率直に言って、この文章は問題提起そのものよりも、論の展開のほうが物足りなく感じられました。
「トークン使用量こそが実力だ」「よくできたPRDが1つあればAIがすべて解決する」といった表現はかなり強い主張ですが、実際に誰がどこでどんな文脈でそう語ったのかが、肝心なところであまり見えてきません。なので読む側としては、実際の潮流を批判しているというより、代表性のはっきりしない極端な主張をいくつか束ねて反論する、藁人形論法のように見えてしまいます。
特にom系を含め、実際にツールを作りワークフローを磨いている人たちが、「PRDひとつですべて解決する」といった言い方をしているのは、私はほとんど見たことがありません。むしろ継続的にリリースと修正、検証を繰り返しています。そのこと自体が、現時点ではまだ人の判断と介入が必須であることを前提にしているのだと思います。
だからこそ、より慎重であるべきなのは、こうした記述が誤って読まれると、特定のビルダーや開発者が実際には言ってもいないことを言ったかのように見せてしまいかねない点です。そうしたやり方は健全な批判というより、誇張されたフレームを先に置いて攻撃することに近いと思います。
トークン使用量も同じです。実力の絶対的な指標ではありませんが、だからといって完全に無意味な数字だとも言い切れません。使用量の差が非常に大きく開くのであれば、それは単なる無駄ではなく、探索量、実験量、検証量の差である可能性があり、実際の業務密度の差につながることもあります。実際、ジェンスン・フアン氏も、年俸の半分以上に相当するトークンを使うべきだと述べていました。
https://www.youtube.com/shorts/XBnFPuru4xA
優れたPRDもまた万能ではなく、レバレッジです。だから結局重要なのは、「トークンが実力なのかそうでないのか」といった単純な構図ではなく、AIを活用した問題解決能力を今後どのような基準で見るべきか、ということだと思います。
書いてくださった文章には完全に同意します。
実際、「トークン使用量こそが実力だ」というのは明らかに誤りであり、歪められたフレームです。
むしろ、計算資源の限界(人間を含む)こそが唯一のボトルネックだと気づく時点で、
トークン使用量の重要性を理解するようになる、という観点で見るべきだと思います。
そのように主張する集団がどこなのかは知っていますが、明記すると法的な問題になり得るので、あえて言及しなかったのです。
有名企業の中には token 使用量まで測定している企業もありますし、下で匿名で言及している方もいます。
GeekNews でも、自分のトークン使用量を誇るかのように主張する書き込みを見ることがあります。
こうした主張をする人たちが多数派というわけではありません。
しかし韓国の AI 界隈では、やや騒がしい人たちがこうした主張をしており、Garry Tan がここ数日ずっと fat harness を批判し続けているのは、韓国のあの宗教じみた主張がアメリカ側にまで渡った証拠でしょう。
ジェンスン・フアンの主張を持ち出して、あたかも真実であるかのように言い張ることこそ、典型的な権威主義的な話法です。
ジェンスン・フアンは数十年前にグラフィックカードを作っていたエンジニアであって、今はエンジニアでもなく、AI 分野の専門家でもないじゃないですか。
相関関係については同意しますが、私が話している集団の主張は、何の役にも立たない Ralph を回すだけです。
事実を言えば、test-time compute を最初に主張した OpenAI の o1 元論文でさえ、増やし続ければよくなり続けるわけではなく、一部の場合だけそうだとはっきり述べています。
それも reasoning effort に関する話であって、ralph loop を回せという話ではもちろんありません。
GPT-5.4 プロンプトガイドでも、より高い reasoning effort が常に優れているわけではないと明記しています。
https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance
それだけでなく、design ではむしろ reasoning effort を下げるよう勧めています。
https://developers.openai.com/blog/…
PRD が万能ではないにもかかわらず、万能であるかのように主張する人がいるので、その点を申し上げているのです。
タイトルは明らかに Ralph loop という虚像についてどう考えるかというものですが、肝心の本文はその主題を具体的に扱うというより、はるかに広く別の文脈の話へと広がっており、文章全体がタイトルとうまく噛み合っていないという印象を受けました。
ですので私は、「そういう人が実際にいるのかいないのか」を問題にしたのではなく、本文が出典と文脈の不明な極端な主張をひとまとめにして反論する構成になっているため、藁人形論法のように読めると申し上げたのです。
ところが、私のコメントへの返答もまた、その点を直接説明するというより、別の人物や別の言説、別の事例を次々と持ち出す流れになっていて、正直なところ論点ずらしにより近いように感じられました。
特に、有名人の発言の引用を権威主義的な話法だと批判しながら、実際の返答では Garry Tan、OpenAI の文書、GPT ガイドなどを再び根拠として持ち出している点も、やや選択的に見えました。
トークン使用量を過剰に誇る文化が不快に感じられることはあると思います。ただ、それとは別に、実際に反復的な実験・検証・修正の過程を経てツールやワークフローを磨いている人たちまで同じフレームの中に入れてしまうのは、また別の誇張だと考えます。
記事をタイトルだけ見て判断しているのですか?
では、"Attention Is All You Need" 論文についてはどうお考えなのでしょうか?
Garry Tan は最近、GStack などの優れた LLM skills を作り、自身の AI 活用能力を示しました。
OpenClaw の創始者も同様ですし、OpenAI は LLM の研究と産業を牽引する企業の公式ガイドです。
それに対してジェンスン・フアンはどうでしょう? まさか、つるはしを売る会社の代表だからといって金について詳しい、などとは言わないでいただきたいです。
そもそもジェンスン・フアンも、誰かの言葉をなぞっているだけですし。
これが論点ずらしだというなら、もう言うことはありません。
そのツールやワークフローを磨いているのは私なのですが、セルフディスをしたという意味でしょうか?
私はタイトルだけを見て判断したのではなく、タイトルと本文がどれだけ整合的に噛み合っているかを述べたのです。
そして私が申し上げたのは、Garry TanやOpenAIがジェンスン・フアンより権威があるかどうかという問題ではなく、他人の引用は権威主義だと批判しながら、ご自身の回答では再び別の権威を根拠として持ち出しているやり方が、一貫しているようには見えなかったという点です。
最後に、「ツールとワークフローを磨く人たちまで同じフレームに入れる」という表現は、特定の個人を名指ししたものではなく、文章の記述の仕方がそのように読める可能性がある、という趣旨でした。これをそのまま「セルフディスと言ったのか」と受け取るのは、私のコメントの範囲をやや超えて解釈されたように思います。
また、タイトルと本文は異なり得るとお考えであれば、この文章は Ralph loop 自体の分析というより、あなたがおっしゃった特定の集団全般を狙った文章だと受け取ればよいのか、気になります。
AI/LLMの専門家でもないジェンスンファンの発言を引用しているわけですから。
はい、特定の集団を狙った文章であることはその通りです。
その中でも最も代表的で、しかも妙な話であるPRD + Ralph loopについて言及したものですし。
そういう集団がいることをご存じないのか、ご本人がその集団なのに知らないふりをしているのかは分かりませんが。
国内外でそうした集団が批判され続けているのには、すべて理由があるのです。
火のない所に煙は立たないでしょう。
そして個人的には、今回の文章はかなり残念に感じました。
GeekNewsは、特定の誰かや集団を狙い撃ちする文章よりも、自分の知らなかった情報や新しい視点、思考の広がりを与えてくれる文章に触れられるところが良いと感じてきました。
だからこそ、今回のように特定の集団を前提にして議論が進んでいく書き方は、よりいっそう残念に読めました。
少なくとも私にとってGeekNewsは、誰かをフレームにはめて狙い撃ちする場というより、より具体的な情報と文脈を通じて考えを広げられる場所に近いです。だから今回の文章は、主張そのものよりも、その主張を展開するやり方のほうがより残念に残りました。このくらいにしておきます。
何度も申し上げています。
特定の集団や人物を直接狙い撃ちするのは、私の立場として好ましくありません。
YC CEO、OpenClawの創設者は、AIの専門家と呼ばれるに値する人物であることを自ら証明した人たちです。
ジェンスン・フアンとは違います。
PRDを幻想だと言ったことはありません。文脈を見てください。
こうした幻想めいた主張が大きくなっている今、単なる私個人の怒りを超えて、韓国のAI、ひいては人類の発展にも関わる内容です。
この人たちがさらに大きくなって別の側面で影響力を持つ前に、その錬金術めいた話を正さなければならないのではないでしょうか。
本人でなければ、読み流せばいいのです。
すでにこの投稿の別のコメントでは共感する人もいれば、私が話している集団の人たちが私を攻撃しに来ています。
そしてもう一つ申し上げると、「韓国のAI」「人類の発展」「錬金術を正さなければならない」といった表現は、やや大きな大義名分が先行している印象を受けました。そうした問題意識を持つこと自体はあり得ると思います。ただ、その程度の話であれば、コミュニティで誰かを広くひとまとめにして批判するやり方よりも、実際の事例や成果物、より具体的な検証基準をあわせて示したときのほうが、はるかに説得力を持って伝わると感じました。
また、YC CEOやOpenClaw創業者の発言は意味のある根拠として受け取りながら、ジェンスン・フアンの引用だけをことさらに権威主義のように扱うやり方も、私には一貫して見えませんでした。結局のところ、誰の言葉は根拠になり、誰の言葉は無意味になるのかという基準が、主張そのものよりも話し手によって変わっているように読めました。ジェンスン・フアンの発言が決定的な根拠ではないとしても、だからといってその引用だけをことさらに無価値な発言のように扱うのは、少し行き過ぎた解釈のように感じました。
結局、そうした主張が他の人にも響くためには、批判を繰り返すだけでなく、実際に参照し検証できる事例や成果物があわせて提示されるべきだと思います。そうしてこそ、いまおっしゃっている方向性も単なる反感ではなく、実際に説得力のある問題提起として読まれるはずです。そうした成果物があるなら、私もそのときは一度積極的に読んでみて、必要であれば自分で使ってみます。
同語反復はもうやめてください。私がしていない話をしたことにされていますし、反論した内容に対してまた疑問を呈しています。
率直に言って、今の本文と返信を合わせて見るほど、情報や分析のための文章というより、特定の流れを非難したい感情のほうが先に立っている文章のように感じます。
本当に精密に批判したかったのであれば、コミュニティに実際にどのような投稿があり、誰がどの文脈でどのような主張をしたのかを、もっと明確に持ってきていただければよかったのだと思います。ところが、そうした具体的な事例の代わりに、「韓国の開発界隈」「そういう集団」「宗教じみた誇張」のような大きな表現で先にひとまとめにしてしまうので、読む側としては実際の主張よりも連想やフレームのほうが強く残ります。
特に、om系を連想させる表現を投げておきながら、実際には特定の集団や人物を直接狙っているわけではないとおっしゃるやり方は、情報性のある文章というより、誰かを広く非難したい気分のほうが強く読み取れてしまいます。
しかも、反応する人に対して「本人でなければそのまま通り過ぎればいい」「共感したか、あるいは私が話している集団の人たちが攻撃しに来た」といった言い方をされるのも、議論というよりレッテル貼りのやり方に近く感じます。そもそも、そうした強いフレームで文章を開けば反感や異論が生まれるのは自然なことなのに、その反応を再び特定の集団として束ねて解釈してしまうと、結局どんな反論もフレームの中に吸収されてしまいます。
私は、そうしたやり方こそ、情報や文脈を分かち合う文章の文法というより、コミュニティ的な対立構図を作る文法に近いと思います。そして正直に言って、そのような文章であればXやThreadsのような場では見慣れているかもしれませんが、少なくとも私が期待していたGeekNewsの雰囲気とは距離があるように見えて、なおさら残念です。
私はGeekNewsを、誰かを大きくひとまとめにして非難する場所というより、実際にやってみたことや具体的な情報、そして思考の幅を広げてくれる文脈を共有する場に近いと感じてきました。だからこそ今回の文章は、主張そのものよりも、それを扱う方法においてより大きな残念さが残りました。
そうすると結局、この文章は Ralph loop 自体を分析する文章というより、あなたがおっしゃる特定の集団全体を狙った文章として理解するのがよさそうです。
ただ、そのような文章であるほど、対象の設定はより厳密であるべきだと思います。「そういう集団がある」「国内外で継続的に批判されている」という表現だけでは、実際の主張と誇張されたフレームがうまく区別されず、結局は異なる人々や文脈をひとまとめにしてしまうやり方として読まれやすいです。特定の集団という基準自体がすでに強いフレームなのに、その境界が不明瞭なまま相手をその中に入れるような返答は、議論を精緻にするというより、むしろ粗くしてしまうと思います。
そして、他の人たちの発言や事例は引き続き根拠として持ち出しながら、ジェンスン・フアンの引用だけをことさらに権威主義として扱うやり方も、一貫しているようには感じられませんでした。OpenClaw の創業者や YC CEO もそれぞれの文脈と権威を持つ人物なのに、一方の引用は正当な根拠になり、もう一方の引用はただちに無意味になるというのであれば、結局のところ基準が主張そのものではなく話者によって変わっているように見えてしまいます。実際、そのような人たちもまた少なくない計算資源や利用量の上で実験している可能性が高いのに、片方は能力の証拠のように読み、もう片方は虚像の象徴のように読むのであれば、その区別の基準こそもっと明確であるべきだと思います。
PRD もまた万能ではありませんが、だからといってその役割まで虚像のように押し流してしまうのは、実際の開発における反復的なリリース・検証・修正のプロセスともあまり噛み合いません。不快な文化が存在しうるとしても、その反感がそのまま広い一般化の根拠になるわけではないと思います。ここまでにします。
oh-my-whateverをはじめ、トークンのリーダーボード云々の類いは、全部マーケティングのためのノイズだと思います。ハーネスを作って何か有用なものが出てくるというより、ただより複雑でトークン消費に最適化されたハーネスが出てくる割合のほうが高いのに、それがいちばん可視性が高く、短期的に注目を集めやすいから、そこに熱狂する人も多い気がします。
こういうものに適応できないのはまさに loser マインドだと言う人もいました。これをもって韓国は速く、SF は遅いという主張もあります。
ただ、ラルフループだのハーネスだのといったものは、結局はすべてモデルの内部機能として吸収されるはずで、そのときになれば、よくできた PRD ひとつで AI が解決してくれるというのも大げさではなくなると思います。
その代わり、今この瞬間にハーネスを無理やりこねくり回して何かすごいことをしているかのように見せかけて使い回すのは、ただの number go up 型のクリッカーゲーム中毒者と大差ないと思います。
https://x.com/WillManidis/status/2021655191901155534 少し前のものですが、この文章は似た文脈でした。
人気があるということは、それだけ平均値に近いということではないでしょうか。高い水準ではなく、平凡な水準で満足できるような……。しかし、これが行き過ぎるとツールは駄目になります。いまだに C か Java かで甲論乙駁している人たちもいます。
平均像は実際にはRalph LoopやHannesとはかなりかけ離れていて、バニラの
claude codeレベルだと思います。正直、母集団を少し広めに取れば、Claude Codeを使ったことがあるだけでも平均以上だと見ていいでしょう。こうしたものが平均のように見えるのだとすれば、彼らのFOMOマーケティングが成功したという意味だと思います。
Ralph Loopという幻想について、どう思いますか?
新しい錬金術師の時代が到来したと見るべきでしょうか?
同感です
全面的に共感します。
個人的には、ただ韓国で似たようなインフルエンサーになりたい人たちなんだろうと思います。
良い文章の共有ありがとうございます。
AIコーディングやHITLも中毒性はありますよね。
こういうのを見ると、やはり人には何かを作るのが好きな本能のようなものがあるんだなと思います。
皮肉を言わずに、分からないなら少しは調べてみてください。
OpenAI CodexをChrome拡張として使う
Copilotの説明と使用記
codex は5年前ですって…? ChatGPT も22年にリリースされたので、まだ5年も経っていませんが…。
もしかして Ask GN の本文もAIで書かれていて、ハルシネーションが入ってしまったのでしょうか?
Codex自体は古いですよ。私もGeekNewsで見てGPT-3のプレビューを申し込んだ記憶がありますね。
もしかすると、GPT-3プレビューとCodexがどういう関係にあったのか教えていただけますか?
当時すでにCodexがあった、という意味でしょうか? それとも、コードを書くAIが存在していて、それがCodexだ、という意味でしょうか?
昔の廃止予定になったモデルのラインアップの中では、
code-davinci-*、code-cushman-*系列が Codex モデルです。Codex というブランド自体はかなり昔からあるものです。https://www.youtube.com/watch?v=SGUCcjHTmGY
もちろん、codex の名称が同一というわけではなく、code モデルが存在していたようですね。
わあ、これはちょっと衝撃的ですね。私も gpt-2、dall-e、gym の頃から使っていたのですが、
codexというモデル名は初めて見ました。教えていただきありがとうございます!補足すると、codexは2025年5月にリリースされました。
wwwwwwwwwwwwwwww
知らないことをさらけ出す前に、せめてナムウィキくらい一度調べてみたらどうですか?
あ、ちなみに ChatGPT Atlas によると、私が登録してから1812日目だそうです。
なるほど、つまり現在のcodexと当時のcodexは異なる形の製品なんですね。
当時のcodexはOpenAIのコード中心LLMモデル名だったわけで、
同じブランドを使って現在のcodexプラットフォームをローンチしたということですね。
私は当時GitHub Copilotを使っていましたが、ベースモデルがGPT-3だったという事実までは知っていたものの、
モデル名にcodexというブランドが使われていたとは知りませんでした。
Codexはモデルではありません。
GPT-5.3-Codexのようなものは、ごく最近になって付けられた名称です。GPT-3ベースでコーディング向けにfine-tuneされたモデルを利用できるVSCode拡張の名前です。
(webは誰も使いません)
同じモデルと方式はGithub Copilotでも使われていました。
当時は意味のあるチャットができなかったので、文字どおり次の単語予測と同じでした。
ただ、Baekjoonの問題を書くと
solve関数を書いてくれる究極のオートコンプリートのようなものだっただけです。(CursorにあったものをOpenAIが先にやった、ということです。)
おっしゃっているのは、codex model を使った VSCode 拡張のことのようです(もしかしてこれでしょうか? https://github.com/Implicate-dev/codex-vscode)
Mark Chen が 2021 年に寄稿した論文を見ると、OpenAI では Codex を fine-tune されたモデル名として公開していたようです。
そうだと思いますが、古いので正確には覚えていません。
Ralph Loopという幻想についてどう思いますか?
https://www.youtube.com/watch?v=SGUCcjHTmGY
米国のサイトであって韓国のサイトではないのに、トークン使用量が高くなければならないという話を見て、不思議に思った記憶があります。韓国だけでなく米国も同じで、納得しがたい妙な話や誇張された話などが乱れ飛んでいます。
韓国ではほぼ半年前からこうした主張が出ていて、最近になってかなり強く語られるようになってきた気がします。
Garry Tan のような人は、そうではないと積極的に否定していますね
少し文脈は異なる話ですが、より安価なハードウェアでより多くのトークンを使って検証するほうが、高価なクラウドAPIを使ってトークンを節約するよりも良い、という考えは持っています。
エージェントやハーネスの発達によって、モデルの精度やサイズよりも、より多くのレビューと検証が可能な経済性を備えた構造のほうが好まれるようになっている気がします。
GDN、Mambaの登場以降は、特にその傾向が強いと思います。
個人的には同意しがたいです。
Opus の場合は高すぎますが、GPT-5.4 くらいの価格なら、中国製の安価なモデルを一日中回すよりも、5.4 を数回回すほうが、さまざまな経済的側面でより良いでしょう。
私が思うに、この世界で学習効率が最も優れているプロゲーマーでさえ新しいことを学べずに失敗する割合が高い理由は、単に実力が足りないからではないと思います。
むしろその逆だと思います。
あまりにも長い間、そしてあまりにも高いレベルで既存のメタに最適化されてきたため、変化を前にするとより大きな困難を抱えることが多いのだと思います。
最初はすべての判断が意識的に行われます。
しかし反復学習が積み重なると、最初は大脳で処理していた判断が次第に自動化され、熟練者は思っている以上に体が先に反応する段階に到達します。
私はこの自動化が間違いなく非常に大きな強みだと思います。
ただしメタが変わる瞬間には、その強みがかえって強い慣性に変わりうると思います。
以前のメタで正解だった視界、集団戦、マクロの感覚は何千時間もかけて体に刻み込まれます。
そのためゲームの構造が変わり、以前の正解がもはや正解ではなくなっても、体は引き続き昔のやり方のまま先に動こうとするのだと思います。
結局のところ問題は、新しいことを学ぶ能力が不足していることではなく、既存の最適化を捨てる能力にあるのだと思います。
ほとんどの熟練は蓄積の結果でもありますが、同時に慣性の結果でもあるからです。
だから私は、うまくやっていた人ほど次のメタでも無条件に有利というわけではないと思います。
むしろ前の時代の成功により強く縛られる可能性も十分に大きいと思います。
今のコーディング業界も大きくは違わないと思います。
多くの方が今なお昔のやり方で効率を計算し、昔の基準で生産性を判断しています。
しかし私は、すでにメタが変わりつつあると思います。
学歴や経歴に関係なく、実際に世の中で起きていることを見れば、果たして今も市場が以前とまったく同じ構造で動いているのか、そして開発が依然として従属的な価値しか提供していないのか、改めて考えてみる必要があると思います。
結局、次の段階へ進む人は、より誠実に積み上げていく人だけではなく、既存のものをより早く捨てられる人なのだと思います。
私が見る限り、新しい時代では、より多くを蓄積する能力よりも、古びた最適化を取り払う能力のほうがはるかに重要になっています。
そう思うのであれば、24時間の生放送でもして直接見せればいいのです。
おお
良いアイデアをありがとうございます。
やはり年輪が違いますね 👍👍👍👍👍👍👍👍👍
無理だという長い話はよく聞きました。
同感です。ただ、omoのようなよくできたハーネスセットは開発に役立つのは確かだと思います(ラルフループがメインではないと認識しています。選択肢として提供されていませんか? ulwだったかな……?)
結論だけを言えば、トークン使用量とは何の関係もないように思います。
自動化については、開発者の間には根深い文化があって、共通して目指す職業的な達成目標のような感覚として定着しているのですが。
この部分が、徹夜で自動的にコードを書いたりプロダクトを作ったりすることに幻想を抱かせているように思います。
実際のところ、開発者の視点ではなく、実際の事業的な有用性や事業運営の立場から見れば、性能や作り込み、素早い対応よりも、問題を測定して解決策を見つけることのほうが重要だと判断される部分が多いのが現実です……
よく、良いアプリを作ったりサービスをうまく作れば大当たりするという、開発者特有の幻想が状況を歪めているように思います。
家の中の髪の毛を数本拾うのに必要なのは、高性能な掃除機500種類ではなく、ただ自分の指の代わりをしてくれる簡単な何か一つです。
トークン消費は、セッション管理を誤ったり SDD の使い方を間違えたりすると、簡単なサーバー開発でも 2〜3 日で Claude 基準で 100 ドルを食ってしまいます。
トークン消費は、何をもって間違った使い方なのかという仕様が不明確なので、何が悪いのかを本人が自分で判断するのも難しいですね。
内容はともかく、トークン消費量を AI 活用の尺度にするのは、たくさん食べるから能力があるという話や、会社で徹夜して鉛筆で既存の文書を書き写したからといって仕事をたくさんしたとは言いにくいのと同じだと思います。
今はまだ正確な尺度がないのでトークン消費量や自動化に力を入れていますが、
この次の段階では、まもなく実際の価値を創出する方法についての議論が始まるように思います。
実際、アメリカだからといってそれほど大きく違うようには思いません。Oh-my 系のコーディングハーネスは、プロジェクトチームが韓国なのでアメリカを含む海外でのマーケティングが不足しているからそう見えるのであって、代表的なトークン・マキシマリストであるスティーブ・イェッゲやカーパシーが主張していることを見ると、おっしゃっていることとそれほど変わらないんですよね。その追随者たちも同様です。
社内でトークン使用量のリーダーボードを作って、会社ごとに競争までしているようですが、個人的にはAI企業のマーケティングに乗せられているだけだと思います。
最近バズっているものを見ると、トークン当たりの性能はまったく考慮されていないように見えます。
面白いのは、AI企業はそういうマーケティングをしていないことです。
むしろ以前のモデルよりも少ないreasoning tokenで、より良い性能を出すと言っています
5年前…? もしかして株のおすすめを教えてもらえますか
サムスン電子ですね。