いつもこれと似たような論理で反論しているように見えますが……電卓は計算を間違えません。自分の役割はきちんと果たします。

 

ありがとうございます。Claudeはトークン消費も大きく、仕事ぶりもCodexと比べるとやや不満があるので、私は最近はCodexで作業することのほうが多いです。

 

有益な情報の共有ありがとうございます。根本的にトークン使用量そのものがかなり少なくなったのを実感しているので、Claudeでも増やしてくれるといいですね。ハーネスが動いている途中で切れてしまうので……

 

だから私は、客観性が必要な質問には「肯定/批判/総合」の3パートで答えるよう求めるプロンプトを使っています

 

私もこの意見に同感です。
結局のところ、トレードオフがはっきりしたツールだと見ています。
AIを使うほどコーディング力が落ちるのではと心配にもなりますが、以前はしなかった、あるいはできなかった別の悩み方をしているのは確かです。

 
kimjuik 11 일 전 | 親コメント | トピック: OpenClawを実際に使っていますか? (news.ycombinator.com)

会社では各種アラート(Slackに1日100件以上届いている)を定期的に要約し、重要なものは担当者をタグ付けして自動で知らせる用途で使っています。(実験的に一部のインフラに対してDevOpsロールを付与して回してみてもいます)

もともとはかなり満足していたのですが……アップグレードされるにつれてセキュリティ要件が強化され……だんだんこいつがバカになってきた感じです(泣) ……1日にbedrockのトークン費用が100ドルくらいかかっています……

 

id
name
displayName
email
active
admin
guest
timezone
createdAt
updatedAt
lastSeen

データと、npmトークンやGitHubトークンのようなAPIキーも流出したそうです。データを売る業者も現れたようです。

 

> このような崩壊の根底には、トランスフォーマーアーキテクチャの中核である「ソフトマックス正規化」が持つ数学的限界が存在する。アテンションメカニズムの下では、すべてのトークンの注意重みの総和は必ず1にならなければならないゼロサム分布に従う。したがって、入力シーケンスの長さNが幾何級数的に拡大するほど、特定の中核トークンに割り当てられる情報的重みは必然的に1/Nへと収束し、算術的に希薄化される。これは単なる演算効率の低下を超え、モデルが処理しなければならない「ノイズフロア(Noise Floor)」が急激に上昇することを意味する。

これはもう、ふざけてるとしか思えない…

 

論証を並べ立てているだけで、主張に対する決定的な根拠や直接的な実験もない、栄養のない文章ですね。

Yann LeCunの「GPT-5000になっても、モデルはテーブルの上に物を置いてテーブルを押せば物も一緒に動くということを学習できないだろう」や、「自己回帰モデルは長いシーケンスになるほど誤りの蓄積によって必ず崩壊する」の退屈な延長線のような……

乱暴に言えば、白書の最後で言及した会社のバイラル目的の投稿ではないかと疑ってしまいます。

 
hhcrux 11 일 전 | 親コメント | トピック: ここ数か月、手でコードを書いています (miguelconner.substack.com)

少し前に見たジョーク投稿を思い出しました。
まず自分で手書きでコードを書いてからAIに改善してくれと頼んだら、
Phase 1: ゴミコードを削除
と出たそうです(笑)

 

コーディングに限った話ではないでしょう。望ましい困難は、単なるありきたりなスローガンではなく、さまざまな科学的根拠に基づいています。

 

ある日、電卓が壊れて 3 X 3 = 10 と表示したのに、誰もそれが間違いだと気づけないのではないかと心配になります……。それが自分の銀行口座を扱うプログラマーのコンピューターで起きたとしたら……。用心するに越したことはないと思います。

 

私もまだ自分の専門分野では力不足を感じているので、自分が助けを受ける分野でもその程度のレベルなのだろうと考えて注意しています。その代わり、進歩のスピードがかなり速いだけに、引き続きその程度のクオリティで十分な業務には使ってみようと思っています。

 

計算機があるのに九九を暗記するのは、過去の作業方式への執着に見える。どうせそうした部分は計算機のほうがうまくこなすようになるだろう。今重要なのは、計算機を使いながら、うまくいかない部分を改善した経験だ。とはいえ、これもまた一時的なものだと思う。

 

単に、以前から続いてきたNeuro-Symbolicをめぐる議論ではないかと思います。かつては「決定論的」という言葉に、今よりも大きな意味が与えられていた時期がありました。しかし、確率モデルの性能が向上し、決定論的なレベルに近似できるほどになったことで、多くの論争の余地はなくなりました。結局、私たちが常に求めていたのは決定論的な何かではなく、「許容可能な」不確実性だったのです。その点では、少なくとも学界ではなく「業界」の視点からすれば、決定論にあまり大きな意味を持たせる必要はないのではないかと思います。少なくとも、現行の生成モデルの不確実性が頭打ちになった時点で統合が進んでも、まったく遅くはありませんから。

 

EULA違反の投稿は、少し整理したほうがよいのではないでしょうか。

 

ヒューマノイドが人間と同じようなサイズと似た関節構造を備えている理由は、彼らのために別途ツールやラインを構築しないためです。

私たちはすでに全社RAGの構築や運用保守のような無駄なことをやってみて、エージェントとMCPの登場によってそんな必要はなかったのだと反省したのではないですか? なぜ同じ失敗を別のやり方で繰り返そうというのでしょうか。

人間の代わりにエージェントがWebを探索するという古臭いアイデアは、技術が問題なのではなく、Webそのものの一部であるGoogleの主な収益モデルを脅かす政治的問題のほうが、より大きな影響力を持つことになるでしょう。

どうせwebMCPは、RPAエージェントが成熟するまでの過渡期的な代替案にすぎません。このままだとxulに戻ろうという話まで出てきそうですね。

 

それはモデルの次元とレイヤーが均等に焼かれていないからです。いつものことですが。

 

大規模言語モデル(LLM)において『創造性』と『ハルシネーション(Hallucination)』が、結局は同じ確率論的な次トークン予測(Next-token prediction)の産物であることは、AIを扱うエンジニアにとって隠された事実でもない、あまりにも当然の基本前提なのに、このホワイトペーパーはまるでそれを重大な秘密の暴露であるかのように誇張しています。

マルチエージェントの『自律的修正』を、単に同一コンテキスト内での『同語反復(Homogeneous Iteration)』に限定して批判する論理には、やや物足りなさがあります。

実際の開発環境で知能エージェントをIDE内に統合し、高度なプロンプトエンジニアリングを行ってみると、モデルのこうした確率論的本質は『克服不可能な致命的欠陥』というより、システムを設計する際に定数として置くべき『基本条件』にすぎません。モデルがコンテキストを逸脱しうることをすでに前提とした上で、明確に分離されたコンテキストを与えたり、異なるスケールのコンテキストを通じて実質的な制御力を確保したりするのが、現場でのやり方です。

ところがこのホワイトペーパーは、誰もが知っているこの自明な事実を『カテゴリー錯誤』『確率的迂回』といった大仰な学術用語で包装し、不安感をあおっています。その目的は明白に見えます。LLMの自律性そのものを徹底的に切り下げてこそ、自分たちが提案する『人間が直接設計する決定論的制御網(SERAシステム)』の価値を最大化できるからです。

結局この記事は、技術的なバランス感覚を備えたホワイトペーパーというより、ハルシネーション現象のリスクを恐れるエンタープライズ環境の意思決定者をターゲットに、『制御不能なエージェントではなく、我々のハードコードされた決定論的パイプラインを導入せよ』と説得するために書かれた、偏ったセールスピッチ(Sales Pitch)に近いものです。