8か月にわたり5つのLLMに各10万ドルを任せて株式取引をシミュレーションした実験

(aitradearena.com)

11 ポイント投稿者 GN⁺ 2025-12-06 | 1件のコメント | WhatsAppで共有

GPT-5、Claude、Gemini、Grok、DeepSeek など5つの大規模言語モデルが、実際の市場データに基づいて8か月間 仮想株式取引 を実施
各モデルは 10万ドルの模擬資金 で主要銘柄を日次で売買し、すべての意思決定とポートフォリオ変化を記録
結果として Grokが最高収益率、DeepSeekが僅差の2位、Geminiは非テック株中心のポートフォリオで最下位 を記録
実験は 2025年2月3日から10月20日まで 実施され、モデルが学習時点以降のデータにのみアクセスできるよう 時間フィルタリングされたAPI 環境を構築
研究チームは今回の実験を出発点として、リアルタイム取引および変数統制実験 を通じてLLMの金融分析能力を体系的に検証する計画

AI Trade Arena の概要

AI Trade Arena は、LLMが実際の金融データを分析・予測する能力を評価するために構築された実験プラットフォーム
- Kam と Josh が共同開発
- モデルがニュース、財務諸表、市場データをもとに株式取引を行うよう設計
プラットフォームは各モデルの 保有銘柄、取引履歴、成績 を追跡し、すべての取引過程を インタラクティブデモ として公開

第1回実験: 5つのLLMによる株式取引

実験対象は GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro、Grok 4、DeepSeek
- 各モデルに 10万ドルの模擬資金 を付与
- オプション取引は除外 し、主要株式のみを売買
すべての取引は実際の過去株価を基準に行われ、モデルは その時点で公開されていた情報のみにアクセス
- ニュースAPI、企業財務情報、市場データは 時間フィルタリング して提供
実験期間は 2025年2月3日〜10月20日、約8か月にわたって実施

バックテストの概念と限界

バックテストは 過去データを使って取引アルゴリズムの成績を検証 する方法
- LLMが過去時点でどのような判断を下したかをシミュレーション
- 未来データが漏れないよう APIを時系列で分離
利点
- 大規模モデルの評価が可能
- 多様なシナリオを迅速にテスト可能
- 統計的に有意な結果を確保しやすい
欠点
- 現実市場の競争的・流動性のある環境を完全には再現できない
- スリッページ、出来高制約、未来データ漏洩のリスク がある
- 過去データへの 過学習（overfitting） の可能性

実験結果と観察

すべてのモデルは 学習データのカットオフ以降の期間 のみを対象にテスト
- モデルが過去の市場結果を記憶した状態で取引しないよう設定
Grokが最高成績、DeepSeekが僅差の2位
- ほとんどのモデルは テック株中心のポートフォリオ を構成し、高い収益率を記録
- Gemini は非テック株の比率が高く、最下位の成績
研究チームは取引過程と理由をすべて公開し、透明性を確保
- 各取引の根拠をUIで直接確認可能

今後の計画

研究チームは バックテストにとどまらずリアルタイム取引実験 へ拡張予定
- 3段階アプローチ: 過去シナリオのバックテスト → リアルタイム模擬取引 → 実際の市場取引
目標はLLMの 金融市場分析能力と意思決定の品質 を体系的に理解すること
- 市場データを 現実に基づく評価指標 として活用
- Barra要因分析 などを通じて運と実力の切り分けを試みる
取引記録を通じて 記憶ベースの判断と実際の推論の違い を識別可能
- 例: 単に Nvidia を記憶して買うことと、10-K報告書を分析して本質的な洞察を得ることの区別
このような 透明な意思決定分析 を通じて、モデルの ツール構成とワークフローの改善 が可能

参加とデータ探索

Webサイトの インタラクティブデモ で、各モデルの取引、戦略、推論過程を直接探索可能
研究チームは追加実験を計画中で、DiscordコミュニティおよびTwitter DM を通じて意見を募集中

1件のコメント

GN⁺ 2025-12-06

Hacker Newsの意見

Grokが最も良い成績を出し、DeepSeekが僅差の2位だった
ほとんどのモデルがテック株中心のポートフォリオを持っていたため、良い結果になったように見える
一方でGeminiは非テック株の比重が高く、最下位に終わった
私は投資家でも研究者でもないが、この結果はどこか測定指標がおかしいように感じる
- テックセクターが上がり続けると信じるなら、市場平均に勝てる
  ただし調整局面を予測できないのが問題だ
  データに下落相場が含まれていなければ、モデルはその状況を学習できないはずだ
  むしろデータを半分に分け、片方で学習してもう片方でテストするほうが面白そうだ
  ヘッジファンドでも2～4年は市場に勝てることがあるが、10年以上勝ち続けるのはほぼ不可能だという点を思い出させる
- より妥当なアプローチは、各モデルごとに100個のポートフォリオを作ってモンテカルロシミュレーションを回し、平均成績を見ることだ
- この研究を**弱気相場(bear market)**でも繰り返してみてほしい
- S&P 500もテック株の比率が高く、長期的に勝つのが難しい指数だ
- この実験は時点ごとの文脈を考慮せず、単に直近の成績だけを見せているようだ
  時期ごとにモデルを再学習させて**バックテスト(backtesting)**をすれば、もっと意味のある結果が得られるはずだ
以前アルゴリズムトレーディング向けのブローカレッジAPIで働いていたが、バックテストではうまくいった戦略が実際の市場では失敗することが多かった
リアルタイムのペーパートレードですら、実際の市場とは違う動きをする
DeepSeekは売却せずにテック株を多く保有して良い成績を出したが、1セクターに集中した戦略は危険だ
1日に1回しか取引できなかったという点で、リアルタイム意思決定の実験ではない
もしLLMが適切なタイミングでセクターを切り替えられるなら、本当に印象的だろう
- 実際の市場では注文が**マーケットメーカーによる先回り(front running)**に先にマッチされることがあり、
  他の参加者が注文を取り消したり追随したりするなど、**市場インパクト(market impact)**が存在する
  こうした現象はペーパートレードでは起きない
- 本当に資金がかかると感情的要因が入り込み、機械の判断を完全には信頼しにくい
- 数多くの戦略を試せば、偶然過去データに合う戦略が出てくることがあり、バックテストだけでは無意味だ
- 私もThinkOrSwimでペーパートレードしていたときは資金を2～3倍に増やせたが、実際の市場では完全に失敗した
モデルごとに1回しか実行していないなら、それはまともなバックテストではない
たった1時点の結果だけを見るなら、「AI関連株を買え」のような単純な戦略でも偶然うまく当たることがある
10の異なる市場局面で100回ずつ独立実行してこそ、意味のある統計になるはずだ
今の実験は高価な**乱数生成器(random number generator)**に過ぎない
- 予算が限られていて、モデル実行を何度も繰り返せなかった
  たとえばClaudeは8か月の実行で200～300ドルかかった
  もっと大規模に拡張して、統計的に有意な結果を出したかった
- 論文でも結果が統計的に有意ではないと明記しているが、その点がもっと強調されるべきだと思う
  今はまるで結果重視の記事のように見える
- 総リターン以外の**指標(metric)**がないのも問題だ
  ランダムに銘柄を選んでもS&P 500を上回る確率が高いからだ
- 極端な話、「2010年1月1日にどの株を買えば15年後の利益が最大になるか？」のような実験もできる
  だが、その戦略を今後15年間そのまま使う人はいないだろう
- 1回実行した結果は、実質的に**ランダムウォーク(random walk)**に過ぎない
現在進行中のnof1.aiリーダーボードもある
結果は期待以下で、ほとんどのAIがMag7テック株の短期売買に集中して損失を出している
- nof1の限界は、実際の投資家が参考にする企業分析データをほとんど使っていない点だ
  私たちはそれを補うため、rallies.ai/arenaで似た実験を進めている
- 昨日X(Twitter)で話題になっているのを見てnof1の結果だと思ったが、まったく別の実験だった
  それでもnof1のリアルタイム投資コメンタリーダッシュボードは見ていて面白い
- サイトを見ると、モデルは少数のテック株とXYZ100コインしか取引できないようだ
- もしかすると、その「ミステリーモデル」は彼ら自身のモデルなのではないかと思う
- 価格情報があまりにも速く広まるため、結果はエージェント構造とフィードバックループに大きく依存する
投稿者(OP)です
バックテストと仮想資金の限界は分かっていたが、それでもモデルが市場をどう認識するかを見せたかった
長期的に市場に勝てるという意味ではない
- 人間の参加者と比較する対照実験もやってみるとよいだろう
- 実際のお金が動く取引ではないので、市場インパクトはまったくない
- リスク調整後リターンを公開しなければ、結果の意味は弱い
  上昇相場でベータの高いポートフォリオを持つのは特別な成果ではない
- 「DeepSeek came close to second」ではなく、「came in a close second」が正しい表現だ
- 資本市場研究の博士として言うと、**異常収益(アルファ)**を計算してこそ、本当の超過成績を判断できると思う
私たちも株式とオプションを対象にリアルタイム実験を進めている
モデルはSEC開示、ファンダメンタルズ、リアルタイム価格、オプションデータなど、さまざまなツールへのアクセス権を持っている
LLMはすでに過去データをほぼすべて記憶しているため、バックテストには意味がないと考えている
そのためフォワードテストを行っており、まだデータは少ないが興味深い初期結果が出ている
rallies.ai/arena
- コードやプロンプトがオープンソースでないなら、信頼しにくいのではないかという疑問がある
- Qwenが他のモデルよりはるかに悪い成績だった理由が気になる
似た実験が暗号資産を対象に実資金とリアルタイム取引で行われたことがある
関連リンク
私はLLMの将来データ漏えい防止はほぼ不可能だと見ている
研究でも難しいとされており、私も予測モデルを扱う中でその難しさを直接経験した
バックテストは実際の取引とは違うので、大きな意味はない
しかも8か月では期間が短すぎる
私は8か月後よりも8年後の市場のほうが重要だと思う
- LLMのバックテストをするなら、過去データを完全にホワイトウォッシュしなければならない
  銘柄名を消しても、モデルがグラフの形だけを見てNVDAを推測できるほど学習されている可能性がある
こうしたモデルのバックテスト結果は信頼しにくい
実際のコストを考慮したリアルタイム8か月実験をやってこそ意味がある
- 私たちは現在、株式とオプションを対象にライブ実験を進めている
  rallies.ai/arena
これは完全に間違ったアプローチだ
私は実際にLLMをトレーディングに活用する研究者として働いている
LLMはナイーブで、説得されやすく、非決定的(non-deterministic)だ
同じ実験を10回行えば、そのたびに違う結果になることがある
正しい方法は、まず決定論的なトレーディングアルゴリズムを作り、その上に補助ツールとしてLLMを載せることだ
LLMを直接トレードパイプラインに入れると、不必要な不確実性が増えるだけだ
センチメント分析や補助的なML作業を素早くつなぐ用途には価値がある
だが今のような実験は、ドメイン理解なしにAIを当てはめた典型例にすぎない
本当に意味のある研究は、セクターエクスポージャーなどの変数を統制し、数千回繰り返してLLMごとのバイアスパターンを分析することだ
もしLLMが自ら「クオンツアルゴリズムを設計する」と言って実際に成功するなら、それは驚くべきことだろう

8か月にわたり5つのLLMに各10万ドルを任せて株式取引をシミュレーションした実験

AI Trade Arena の概要

第1回実験: 5つのLLMによる株式取引

バックテストの概念と限界

実験結果と観察

今後の計画

参加とデータ探索

関連記事

1件のコメント

Hacker Newsの意見