- GPT-5、Claude、Gemini、Grok、DeepSeek など5つの大規模言語モデルが、実際の市場データに基づいて8か月間 仮想株式取引 を実施
- 各モデルは 10万ドルの模擬資金 で主要銘柄を日次で売買し、すべての意思決定とポートフォリオ変化を記録
- 結果として Grokが最高収益率、DeepSeekが僅差の2位、Geminiは非テック株中心のポートフォリオで最下位 を記録
- 実験は 2025年2月3日から10月20日まで 実施され、モデルが学習時点以降のデータにのみアクセスできるよう 時間フィルタリングされたAPI 環境を構築
- 研究チームは今回の実験を出発点として、リアルタイム取引および変数統制実験 を通じてLLMの金融分析能力を体系的に検証する計画
AI Trade Arena の概要
- AI Trade Arena は、LLMが実際の金融データを分析・予測する能力を評価するために構築された実験プラットフォーム
- Kam と Josh が共同開発
- モデルがニュース、財務諸表、市場データをもとに株式取引を行うよう設計
- プラットフォームは各モデルの 保有銘柄、取引履歴、成績 を追跡し、すべての取引過程を インタラクティブデモ として公開
第1回実験: 5つのLLMによる株式取引
- 実験対象は GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro、Grok 4、DeepSeek
- 各モデルに 10万ドルの模擬資金 を付与
- オプション取引は除外 し、主要株式のみを売買
- すべての取引は実際の過去株価を基準に行われ、モデルは その時点で公開されていた情報のみにアクセス
- ニュースAPI、企業財務情報、市場データは 時間フィルタリング して提供
- 実験期間は 2025年2月3日〜10月20日、約8か月にわたって実施
バックテストの概念と限界
- バックテストは 過去データを使って取引アルゴリズムの成績を検証 する方法
- LLMが過去時点でどのような判断を下したかをシミュレーション
- 未来データが漏れないよう APIを時系列で分離
- 利点
- 大規模モデルの評価が可能
- 多様なシナリオを迅速にテスト可能
- 統計的に有意な結果を確保しやすい
- 欠点
- 現実市場の競争的・流動性のある環境を完全には再現できない
- スリッページ、出来高制約、未来データ漏洩のリスク がある
- 過去データへの 過学習(overfitting) の可能性
実験結果と観察
- すべてのモデルは 学習データのカットオフ以降の期間 のみを対象にテスト
- モデルが過去の市場結果を記憶した状態で取引しないよう設定
- Grokが最高成績、DeepSeekが僅差の2位
- ほとんどのモデルは テック株中心のポートフォリオ を構成し、高い収益率を記録
- Gemini は非テック株の比率が高く、最下位の成績
- 研究チームは取引過程と理由をすべて公開し、透明性を確保
今後の計画
- 研究チームは バックテストにとどまらずリアルタイム取引実験 へ拡張予定
- 3段階アプローチ: 過去シナリオのバックテスト → リアルタイム模擬取引 → 実際の市場取引
- 目標はLLMの 金融市場分析能力と意思決定の品質 を体系的に理解すること
- 市場データを 現実に基づく評価指標 として活用
- Barra要因分析 などを通じて運と実力の切り分けを試みる
- 取引記録を通じて 記憶ベースの判断と実際の推論の違い を識別可能
- 例: 単に Nvidia を記憶して買うことと、10-K報告書を分析して本質的な洞察を得ることの区別
- このような 透明な意思決定分析 を通じて、モデルの ツール構成とワークフローの改善 が可能
参加とデータ探索
- Webサイトの インタラクティブデモ で、各モデルの取引、戦略、推論過程を直接探索可能
- 研究チームは追加実験を計画中で、DiscordコミュニティおよびTwitter DM を通じて意見を募集中
1件のコメント
Hacker Newsの意見
Grokが最も良い成績を出し、DeepSeekが僅差の2位だった
ほとんどのモデルがテック株中心のポートフォリオを持っていたため、良い結果になったように見える
一方でGeminiは非テック株の比重が高く、最下位に終わった
私は投資家でも研究者でもないが、この結果はどこか測定指標がおかしいように感じる
ただし調整局面を予測できないのが問題だ
データに下落相場が含まれていなければ、モデルはその状況を学習できないはずだ
むしろデータを半分に分け、片方で学習してもう片方でテストするほうが面白そうだ
ヘッジファンドでも2~4年は市場に勝てることがあるが、10年以上勝ち続けるのはほぼ不可能だという点を思い出させる
時期ごとにモデルを再学習させて**バックテスト(backtesting)**をすれば、もっと意味のある結果が得られるはずだ
以前アルゴリズムトレーディング向けのブローカレッジAPIで働いていたが、バックテストではうまくいった戦略が実際の市場では失敗することが多かった
リアルタイムのペーパートレードですら、実際の市場とは違う動きをする
DeepSeekは売却せずにテック株を多く保有して良い成績を出したが、1セクターに集中した戦略は危険だ
1日に1回しか取引できなかったという点で、リアルタイム意思決定の実験ではない
もしLLMが適切なタイミングでセクターを切り替えられるなら、本当に印象的だろう
他の参加者が注文を取り消したり追随したりするなど、**市場インパクト(market impact)**が存在する
こうした現象はペーパートレードでは起きない
モデルごとに1回しか実行していないなら、それはまともなバックテストではない
たった1時点の結果だけを見るなら、「AI関連株を買え」のような単純な戦略でも偶然うまく当たることがある
10の異なる市場局面で100回ずつ独立実行してこそ、意味のある統計になるはずだ
今の実験は高価な**乱数生成器(random number generator)**に過ぎない
たとえばClaudeは8か月の実行で200~300ドルかかった
もっと大規模に拡張して、統計的に有意な結果を出したかった
今はまるで結果重視の記事のように見える
ランダムに銘柄を選んでもS&P 500を上回る確率が高いからだ
だが、その戦略を今後15年間そのまま使う人はいないだろう
現在進行中のnof1.aiリーダーボードもある
結果は期待以下で、ほとんどのAIがMag7テック株の短期売買に集中して損失を出している
私たちはそれを補うため、rallies.ai/arenaで似た実験を進めている
それでもnof1のリアルタイム投資コメンタリーダッシュボードは見ていて面白い
投稿者(OP)です
バックテストと仮想資金の限界は分かっていたが、それでもモデルが市場をどう認識するかを見せたかった
長期的に市場に勝てるという意味ではない
上昇相場でベータの高いポートフォリオを持つのは特別な成果ではない
私たちも株式とオプションを対象にリアルタイム実験を進めている
モデルはSEC開示、ファンダメンタルズ、リアルタイム価格、オプションデータなど、さまざまなツールへのアクセス権を持っている
LLMはすでに過去データをほぼすべて記憶しているため、バックテストには意味がないと考えている
そのためフォワードテストを行っており、まだデータは少ないが興味深い初期結果が出ている
rallies.ai/arena
似た実験が暗号資産を対象に実資金とリアルタイム取引で行われたことがある
関連リンク
私はLLMの将来データ漏えい防止はほぼ不可能だと見ている
研究でも難しいとされており、私も予測モデルを扱う中でその難しさを直接経験した
バックテストは実際の取引とは違うので、大きな意味はない
しかも8か月では期間が短すぎる
私は8か月後よりも8年後の市場のほうが重要だと思う
銘柄名を消しても、モデルがグラフの形だけを見てNVDAを推測できるほど学習されている可能性がある
こうしたモデルのバックテスト結果は信頼しにくい
実際のコストを考慮したリアルタイム8か月実験をやってこそ意味がある
rallies.ai/arena
これは完全に間違ったアプローチだ
私は実際にLLMをトレーディングに活用する研究者として働いている
LLMはナイーブで、説得されやすく、非決定的(non-deterministic)だ
同じ実験を10回行えば、そのたびに違う結果になることがある
正しい方法は、まず決定論的なトレーディングアルゴリズムを作り、その上に補助ツールとしてLLMを載せることだ
LLMを直接トレードパイプラインに入れると、不必要な不確実性が増えるだけだ
センチメント分析や補助的なML作業を素早くつなぐ用途には価値がある
だが今のような実験は、ドメイン理解なしにAIを当てはめた典型例にすぎない
本当に意味のある研究は、セクターエクスポージャーなどの変数を統制し、数千回繰り返してLLMごとのバイアスパターンを分析することだ
もしLLMが自ら「クオンツアルゴリズムを設計する」と言って実際に成功するなら、それは驚くべきことだろう