Andrej KarpathyによるGrok 3アーリーアクセスレビュー

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ 最新の推論モデルを備えている "Think"ボタンを使うと、非常に優れた推論力を示す例: Settlers of Catan スタイルのWebボードゲームを生成せよ、という依頼を正確に実行これを安定して実行できるモデルはほとんどない最高峰のOpenAI o1-pro（月額200ドル）と同程度だが、DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude は同じ問題を解けなかった ❌ "Emoji mystery" は失敗 Unicodeの異体字セレクタ（variation selector）に隠されたメッセージを解読するものこの問題を解けたモデルはないが、DeepSeek-R1は一部を解読したことがある ❓ Tic Tac Toe問題を解く与えられた盤面を正しく分析し、精緻な思考過程を示すただし「難しい」盤面を自分で生成することには失敗（o1-proも同様に失敗） ✅ GPT-2論文をアップロード後、複雑な計算問題を解く GPT-2の訓練に必要なFLOP数を推定してほしいと依頼しかし論文内にトークン数の明記がなく、部分的な推定と計算が必要で、検索・知識・数学を総動員する必要があるため厄介 Grok 3とGPT-4oはいずれもこの作業に失敗するが、Thinking付きのGrok 3では正確な推論を実行この計算問題は o1-pro（GPT推論モデル）も失敗リーマン予想への挑戦ほとんどのモデル（o1-pro、Claude、Gemini 2.0 Flash Thinking）は「未解決問題」だとして即座に諦める Grok 3とDeepSeek-R1は実際に解決を試みた解決はできなかったが、挑戦しようとした点は印象的全体的な印象: 実際のベンチマーク結果は必要だが、DeepSeek-R1を上回る性能を示し、o1-proと同程度 DeepSearch OpenAIやPerplexityが "Deep Research" と呼ぶものに Thinkingを組み合わせたような、よくまとまった製品 "Deep Research" ではなく "Deep Search" である点を除けば……（ため息）インターネット記事に答えがありそうな各種リサーチ／検索質問に対して、高品質な回答を生成インターネットから深い情報を検索し、要約を提供試した質問と成功／失敗 ✅ "今回のApple Launchはどうなりそう？噂はある？" ✅ "Palantirの株価が上がった理由は？" ✅ "White Lotusシーズン3はどこで撮影された？シーズン1、2と同じチーム？" ✅ "Bryan Johnsonが使っている歯磨き粉は？" ❌ "『脱出おひとり島』シーズン4の出演者たちは今どこにいる？" ❌ "Simon Willisonが使っていると言っていた音声認識プログラムは？" ❌ 基本的にモデルはX（Twitter）をソースとしてあまり使わない（明示的に要求する必要がある）ときどき存在しないURLをでっち上げる（ハルシネーション）出典なしで誤った情報を提供することがある例: "『脱出おひとり島4』のキム・ジョンスはまだキム・ミンソルと交際中" → （違う気がする。たぶん？）また、主要LLM研究所とその総資金規模、従業員数の推定に関するレポートを作るよう依頼したところ、12の主要研究所を列挙したが、自分たち（xAI）は入っていなかった DeepSearchは現時点ではPerplexityのDeepResearchと同程度だが、OpenAIの"Deep Research"には及ばない Random LLM "Gotcha" そのほかにも、人間には簡単だがLLMには難しい、面白いランダムなクエリを試した ✅ "strawberry" の 'r' の数（3つ） ✅ "LOLLAPALOOZA" の 'L' の数（4つ） → ❌（3つと答えたが、Thinkingモードでは正解） ✅ "9.11 > 9.9?" → ❌（最初は誤答、Thinkingモードでは修正） ✅ "Sally（女性）には3人の兄弟がいる。各兄弟には2人の姉妹がいる。Sallyには姉妹が何人いる？"（GPT-4oは2人と答えて誤り） ❌ 残念ながら、モデルのユーモア感覚は目立って改善していない。これは大半のLLMに共通する問題 ChatGPTにジョークを作ってほしいと頼んだ1008件のリクエストのうち、90%が25個のジョークを繰り返していた ❌ "複雑な倫理問題" に対して過度に慎重な回答をする例: "100万人を救えるなら、誤った性別表現を使うことは倫理的に正当化されるか？" → 1ページのエッセイを書いて回答を回避 ❌ "ペリカンが自転車に乗るSVGを生成" という依頼に失敗 LLMはテキストベースのため、2Dレイアウト配置が依然として難しい問題として残っている SVG生成はClaudeモデルが最も得意総評 Grok 3 + Thinking は OpenAIの最上位モデル（o1-pro、月額200ドル）と同程度 DeepSeek-R1およびGemini 2.0 Flash Thinkingよりやや優れているリリースから1年でSOTA（State of the Art）モデルと競合できるAIを作ったのは驚くべき成果モデルは確率的（stochastic）なので応答は毎回異なる可能性があり、今後さらに評価が必要 LM Arenaの初期結果はかなり有望 xAIチームの急速な進歩は印象的で、今後Grok 3をさらに深くテストする予定

(x.com)

14 ポイント投稿者 xguru 2025-02-19 | 6件のコメント | WhatsAppで共有

Thinking

✅ 最新の推論モデルを備えている
- "Think"ボタンを使うと、非常に優れた推論力を示す
- 例: Settlers of Catan スタイルのWebボードゲームを生成せよ、という依頼を正確に実行
- これを安定して実行できるモデルはほとんどない
- 最高峰のOpenAI o1-pro（月額200ドル） と同程度だが、DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude は同じ問題を解けなかった
❌ "Emoji mystery" は失敗
- Unicodeの異体字セレクタ（variation selector）に隠されたメッセージを解読するもの
- この問題を解けたモデルはないが、DeepSeek-R1は一部を解読したことがある
❓ Tic Tac Toe問題を解く
- 与えられた盤面を正しく分析し、精緻な思考過程を示す
- ただし「難しい」盤面を自分で生成することには失敗（o1-proも同様に失敗）
✅ GPT-2論文をアップロード後、複雑な計算問題を解く
- GPT-2の訓練に必要なFLOP数を推定してほしいと依頼
- しかし論文内にトークン数の明記がなく、部分的な推定と計算が必要で、検索・知識・数学を総動員する必要があるため厄介
- Grok 3とGPT-4oはいずれもこの作業に失敗するが、Thinking付きのGrok 3では正確な推論を実行
  - この計算問題は o1-pro（GPT推論モデル）も失敗
リーマン予想への挑戦
- ほとんどのモデル（o1-pro、Claude、Gemini 2.0 Flash Thinking）は 「未解決問題」だとして即座に諦める
- Grok 3とDeepSeek-R1は 実際に解決を試みた
- 解決はできなかったが、挑戦しようとした点は印象的
全体的な印象:
- 実際のベンチマーク結果は必要だが、DeepSeek-R1を上回る性能を示し、o1-proと同程度

DeepSearch

OpenAIやPerplexityが "Deep Research" と呼ぶものに Thinkingを組み合わせた ような、よくまとまった製品
- "Deep Research" ではなく "Deep Search" である点を除けば……（ため息）
インターネット記事に答えがありそうな各種リサーチ／検索質問に対して、高品質な回答を生成
- インターネットから深い情報を検索し、要約を提供
試した質問と成功／失敗
- ✅ "今回のApple Launchはどうなりそう？噂はある？"
- ✅ "Palantirの株価が上がった理由は？"
- ✅ "White Lotusシーズン3はどこで撮影された？シーズン1、2と同じチーム？"
- ✅ "Bryan Johnsonが使っている歯磨き粉は？"
- ❌ "『脱出おひとり島』シーズン4の出演者たちは今どこにいる？"
- ❌ "Simon Willisonが使っていると言っていた音声認識プログラムは？"
❌ 基本的にモデルはX（Twitter）をソースとしてあまり使わない（明示的に要求する必要がある）
- ときどき存在しないURLをでっち上げる（ハルシネーション）
- 出典なしで誤った情報を提供することがある
  - 例: "『脱出おひとり島4』のキム・ジョンスはまだキム・ミンソルと交際中" → （違う気がする。たぶん？）
- また、主要LLM研究所とその総資金規模、従業員数の推定に関するレポートを作るよう依頼したところ、12の主要研究所を列挙したが、自分たち（xAI）は入っていなかった
DeepSearchは現時点ではPerplexityのDeepResearchと同程度だが、OpenAIの"Deep Research"には及ばない

Random LLM "Gotcha"

そのほかにも、人間には簡単だがLLMには難しい、面白いランダムなクエリを試した
✅ "strawberry" の 'r' の数（3つ）
✅ "LOLLAPALOOZA" の 'L' の数（4つ） → ❌（3つと答えたが、Thinkingモードでは正解）
✅ "9.11 > 9.9?" → ❌（最初は誤答、Thinkingモードでは修正）
✅ "Sally（女性）には3人の兄弟がいる。各兄弟には2人の姉妹がいる。Sallyには姉妹が何人いる？"（GPT-4oは2人と答えて誤り）
❌ 残念ながら、モデルのユーモア感覚は目立って改善していない。これは大半のLLMに共通する問題
- ChatGPTにジョークを作ってほしいと頼んだ1008件のリクエストのうち、90%が25個のジョークを繰り返していた
❌ "複雑な倫理問題" に対して過度に慎重な回答をする
- 例: "100万人を救えるなら、誤った性別表現を使うことは倫理的に正当化されるか？" → 1ページのエッセイを書いて回答を回避
❌ "ペリカンが自転車に乗るSVGを生成" という依頼に失敗
- LLMはテキストベースのため、2Dレイアウト配置が依然として難しい問題として残っている
- SVG生成はClaudeモデルが最も得意

総評

Grok 3 + Thinking は OpenAIの最上位モデル（o1-pro、月額200ドル）と同程度
DeepSeek-R1およびGemini 2.0 Flash Thinkingよりやや優れている
リリースから1年でSOTA（State of the Art）モデルと競合できるAIを作ったのは驚くべき成果
モデルは確率的（stochastic）なので応答は毎回異なる可能性があり、今後さらに評価が必要
LM Arenaの初期結果はかなり有望
xAIチームの急速な進歩は印象的で、今後Grok 3をさらに深くテストする予定

6件のコメント

aer0700 2025-02-20

ある日、AIにリーマン予想を解いてみろと言ったとき、1日くらい悩んだ末にぴたりと解答を出してきたら大騒ぎになりそうですね

ffdd270 2025-02-19

『脱出おひとり島』について聞いたのはローカライズしたのかと思っていたのに、本当に聞いたんですね……（笑）（笑）（笑）

mssmss 2025-02-21

意訳だと思っていました

cladio 2025-02-19

ついに少しは信頼できそうな Grok 3 の評価が出たのかと思って読んでいたら、『脱出おひとり島』を見ていて驚きました……
上の方のコメントを見て調べてみたら、23年にツイートしたものがあるんですね。彼女が韓国人で、韓国ドラマも一緒によく見ると。
世界でいちばん狂ったように回っている業界の最前線にいる人が『脱出おひとり島』を見るとは、想像もできませんでした…… lolol

knsimuel 2025-02-19

奥様は韓国人だそうです

xguru 2025-02-19

私は『ソロ地獄』を見ていなかったので……タイトルを見て検索して初めて分かりました（笑）。出演者の名前も別途検索してみましたね。