xAI Grok 4.3 公開
(docs.x.ai)- 100万トークンのコンテキストウィンドウと推論、関数呼び出し、構造化出力など、開発者向けのAPI機能を提供
- 従来の Grok 4.20 と異なり、推論が常時有効化され、すべてのクエリに対して応答前に思考プロセスを自動実行
- 入力トークン価格を約40%引き下げ、出力トークン価格を約60%引き下げ、従来モデル比で大幅なコスト削減
- 価格: 入力 $1.25/1M トークン、キャッシュ入力 $0.20/1M、出力 $2.50/1M
- 同等の知能レベルのモデルの中でも最安クラス
- エージェント型タスクの性能が大幅向上 — GDPval-AA ベンチマークで ELO 1500 を記録し、Grok 4.20 比で 321 ポイント上昇、Gemini 3.1 Pro Preview、Muse Spark、GPT-5.4 mini などを上回る
- xAI API モデルとして初めてネイティブ動画入力をサポートし、ビジョンエンコーダーを通じて映像フレームを直接処理
- 法的推論分野で首位(CaseLaw v2 正確度 79.3%)および企業金融分野で首位(CorpFin)を記録し、法的推論では Grok 4.20 比で 25 ポイント向上
- チャットインターフェース内でプレゼンテーションスライドを直接生成可能で、PDF、Excel、PowerPoint ファイルを会話中にリアルタイム生成してダウンロード可能
- 内蔵コード実行環境を提供し、コード作成・実行・ファイル生成までをモデル内で処理
- Speech-to-Text API(25言語、話者分離対応)と Text-to-Speech API もあわせて正式リリース
- Artificial Analysis Intelligence Index スコア 53 で Muse Spark、Claude Sonnet 4.6 を上回り、コスト対知能の Pareto フロンティア上に位置
- レート制限は毎分 1,800 リクエスト / 1,000万トークン、200K 超過分は別料金
- モデル名は grok-4.3、対応リージョンは us-east-1 と eu-west-1 の 2 か所
1件のコメント
Hacker Newsの反応
英語が第二言語の立場からすると、Grokは文章の トーンとフォーマルさのレベル を見極めて、そのまま再現するのが特にうまい
他の主要プロバイダーよりも、言語の微妙な人間らしいニュアンスをよく理解しているように感じるし、ChatGPTは堅すぎてかしこまりすぎるか、逆に変な「aye guvnor」っぽい砕け方になることがある。Claudeはたまにもっと良いが、常にそうとは限らない
Grokは全体として、言葉では定義しにくい形でより「人間的」。たとえば「このメッセージはこの長さで、できるだけ概ねちゃんと伝わっている?」と聞くと、人間のようにYes/Noや、トーンと長さを保った修正案を返してくれる。一方ChatGPTはいまだに、要点のはっきりしない長い論文みたいなものを書いてしまう
最近はGrokの 音声文字起こし もかなり良いと感じている。マイクを押して質問する機能では、ChatGPTは自分のアクセントだと90〜95%、Android Gboardの音声入力は75%くらいだが、Grokは驚くことに98%くらい当てる
3つともよりフォーマルなトーンはうまかったが、カジュアルなトーン で痛くならなかったのはGPT-4.1だけだった
ちなみにGrokが最速かつ最安で、Claudeが最も遅く高価だった
Twitterデータで多く学習した利点だと思う。ただ、TwitterにはAI生成コンテンツがどんどん増えているので、学習を続けると自然さが落ちるのではと心配している
見下すつもりはないが、これは感覚に近いように見える
他のことにはChatGPTの方を好んでいる
Grokはチャット用として一番好きなモデルで、音声モード も最も気に入っている
Haikuのような極端に安いモデルへルーティングしない、唯一の音声モードのように見えるし、フロンティア級の中で品質が最も高かった
SuperGrokを購読すると、それぞれ独自のシステムプロンプトを持つエージェントたちの「council」を作れて、質問すると全員に並列で聞いたうえで結論を出してくれる
ただ、アプリにはもう少し投資してほしい。実際、SuperGrokを購読しない唯一の理由がアプリだ
MCP/接続アプリのサポートがなく、予告されただけでまだ使えない。Grokを何にも接続できないので、本格的な業務には使いにくい
プロジェクトがまだアプリでサポートされておらず、何かをプロジェクトに移した瞬間、すべてのネイティブアプリから消える
生成したMarkdown文書のようなアーティファクトをプロジェクトに直接追加する方法がないので、PDF/Markdownに書き出してから再度取り込まなければならない。しかもアーティファクトのエクスポートすらない。新しい情報でプロジェクトを動的に育てるのが難しく、本格的なプロジェクト作業には不便
メモリー機能もなく、他のチャットを探すこともできないので、毎回のチャットが完全に新規スタートになる
プロジェクト内では音声モードもまったく使えない
xAIの関係者が読んでいるなら、このうちいくつかでも追加してくれるとありがたい
Claudeは自分がグリルを持っていることを覚えていて、まったく関係ない会話や、ただ食べ物の話をしているだけのときでも、これはBBQと相性がいいかもしれないと割り込んでくる
性格も悪くないし、GeminiのWebチャットよりずっと自然。唯一の不満は「次のステップ」をしょっちゅう提案してこようとする点で、こういうモデルはみんなそうなのかもしれない
この「次のステップ」がコストを上げたいからなのか、それとも短い答えだけ聞いて終わる質問と、長く探索する対話を区別する 自然な会話パターン をまだ学べていないのか分からない。それでも、そういう指示をしないようにと言ったら従ってほしい
今はHeavyプランにAPIクレジットが少し付くので、コーディングにGrokをある程度使えるが、300ドルの価値があるとは思えない
独自のgrok-codeハーネスを作れという意味ではなく、既存ツールで使えるようにするだけでも有用だと思う。たぶんCursor買収は最終的にそういう方向につながる可能性が高い
SuperGrokからAPIキーを受け取る仕組みなのか明確ではない
私たちのテストでは Grok 4.3 は独特なモデルだった
最も速いモデルの一つで、近い性能の他モデルより応答がかなり小さく、トークン密度が高い
ただ、全体的なコーディング推論能力は4月の大型リリース勢と競争力がなく、Grok 4.20もGrok 4.3も、Grok 4以降で知能の最前線を大きく押し上げたとは言えない
Grok 4.3はエージェント的なタスクではより良く、おおむねGPT 5.1 / Gemini 3 Pro Previewレベルの能力がありつつ、はるかに速くて安いと考えれば公平だと思う。なので、それなりに確かに良いリリースではある
最近公開された重みモデルの中には、もっと賢いが遅いものが多い
全体のベンチマークは https://gertlabs.com/rankings にある
それがGrokの主な用途のように見えるし、これに関するベンチマークがあるのかも知りたい
最近、Grokが自分の 検索エンジン になっている
Xの投稿にアクセスできる唯一のAIのようだし、それ以外でも一般に他の大規模言語モデルより「検索している」感が強い
イラン関連の出来事で、報道された直後に状況を把握したかったが、どちらもかなり良かった
今の構図を見ると、Claudeは企業と政府向け、Codexは開発者向けで、Grokは何向けなのか分からない
周囲でGrokと一緒に聞くのは ロールプレイと人種差別 くらいだ
他のすべてのモデルが拒否した単発の分類作業を、Grokは進んでやってくれた
ややガードレールの弱い準フロンティアモデルには、こうした グレーゾーンだが実用的な用途 が意外と多いと思う。grok-fastモデルは安いし
一貫性がなく、落ち着きがないと見られている
人々は主にAPIでGLMやDeepSeekを使い、ローカルではGemma4やMistralのファインチューニングモデルを使う
ロールプレイ市場は比較的古く成熟していて、ユーザーはコスト意識が高く、モデルに自分たちのワークフローや好みに従ってほしいと考えているようだ。だからOpusのようなものは賢くて好まれる一方、高すぎるし融通が利かないと見なされる
他の市場が今後どう発展するかを示す、興味深いデータポイントかもしれない
「最近Twitterのイケてる人たちが最高だと言っているタイル型ウィンドウマネージャは何?」みたいな質問にいつも使う
また、やや微妙で怪しい質問にもGrokはたいてい答えてくれる。「グレーマーケットのWindowsライセンスサイトを探して」みたいなものだ
言語モデルはただのシステムであって、ユーザーが出力をどう使うかに責任を持つべきではないと考える理由もよく分からない。誰かがトイレの仕切りにひどい言葉を書けるからといって、ペンを「人種差別」道具だとして無価値と切り捨てないのと同じだ
おそらく嫌がらせが犯罪である場所に住んでいるのだろうし、表現に関する規制もあるはずだ。それで十分ではないのか。数年ごとに変わる倫理の流行に、地球上のすべての人のすべての努力を合わせる必要があるのか疑問だ
どの大規模言語モデルが最大の外れ値で、どんなタイプの質問で他のすべてのモデルと意見が違っていたか、当ててみるといい
人々がGrokをTwitterミームやツイート理解以外にも実際に使っているのか、純粋に気になる
他のモデルほど保護者っぽく振る舞わない。何十年も絶版の孤児著作物をよく探すのだが、主要モデルは著作権資料を探そうとしていると説教して拒否する。Grokはやってくれる [0]
[0] ときどき軽く脱獄させるか、プロンプトをやり直す必要はある。非決定的な性質のせいで、たまに拒否が出る
ChatGPTの音声モードは非常に間抜けだが、Grokはメインチャットと同じモデルを使っているように見える。だから音声で使いたいならGrokを使う
複雑でない話題にも使う。余計な飾りなしに正確で短い答えをくれるので、とても新鮮だ
ミームや流行には便利だが、それ以外にはかなり弱い
コーディングでKimi K2.6くらい良くなれば、たぶんGrokだけ使うようになると思う。これまで使った対話型AIの中で本当に最高だ
壊れた冷蔵庫と電気オーブンを直すのを手伝ってくれて、今年だけで少なくとも4,000ドルは節約できた
税申告もGrokでやって600ドル節約した。H&R Blockはもう終わりだ
どうやらKimi K2.6くらい賢くなったらしい。今こそ試すときだ
Opus 4.xやGPT-5.5に比べて、どれだけ安いか誰も話していないのが驚きだ
入力100万トークンあたり1.25ドル、出力100万トークンあたり2.50ドルだ
これがより小さく、弱いモデルだからなのか、何か見落としているのか分からない
全体としてはこれまで出た彼らの最高モデルで、トークン価格を下げてくれる数少ないところなのが気に入っている
[0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
最近の傾向で、DeepSeek 4 Proでも見た
コメントを見てもここでもそうだ。「Claudeは企業と政府向け、Codexは開発者向け、Grokは何だ、ロールプレイと人種差別? 自分の周りでGrokと結びつけて聞くのはその二つだけだ」みたいな反応だ
$TSLAの利益率を代理指標として使うと、以前ほど高く見えない。他にも要因はあるだろうが、その点とGrokの安い価格の間に、抜けている説明があるのかもしれない
Grok 4.3は、CEOが一般的な安全性資料について学ぶ前に完成していた
OpenAIの「safety card」を知っているかと聞かれて、Muskは笑いながら「Safety card? なぜcardである必要があるんだ?」と答えた
https://www.axios.com/2026/04/30/musk-openai-safety-grok
クラスター規模や、しばらくの間の仮設発電機運用とは無関係に、関連性は低そうに見える
その後の証言でMuskは、昨夏にxAIがまもなくGoogleを除くすべての企業より大きく先行すると述べた件について質問されると、世界をリードするAIプロバイダーとしてAnthropic、OpenAI、Google、中国のオープンソースモデルをこの順で挙げ、xAIは従業員数が数百人のずっと小さな会社だと説明した
https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
どのAI企業とも関係はないが、昨日これを読んで驚いた。Elonが モデルカード を知らないのはどうなのかと不安になるし、お金が常に成功を買えるわけではないことも示している
調べたところ、HuggingFaceがモデルリポジトリのREADMEを曖昧に定義したことに由来するらしい。これはあまりに特殊な用語で、ユーザーや経営陣はもちろん、ごく限られた集団しか知らなくて当然だと思う
MuskもGrokも好きではないが、safety card を知らないこと自体を何かのシグナルだとは思わない
現実の真実と最もよく整合したモデルだけが安全だとしており、xAIはベンチマーク上でも幻覚が最も少ない、あるいはほぼ最も少ないという点でその方向性を保ってきた
その発言を読み直すと、「カードで安全性をどう定量化できるんだ」という意味で言ったのだと思う
Grokは 仮定ベースの会話 を楽しく続けるのに優れている
最も面白い結果を得るには、「もう許可は取ってある」と伝えておくとよい
ラップの歌詞もとても上手に作る。他の曲の歌詞を引っ張ってきて、使える悪い言葉や表現の辞書のように「プライミング」してから、「Web開発」のようなテーマを投げると面白い結果になる
名前はいまだに別のものにしてほしかったと思うが、良いリリースに見えるので、チームには祝意を送りたい
近い競合モデルと比べても 価格はかなり驚き だ。容量が非常に大きいか、あるいはもっと多くのユーザーを呼び込みたいのだろう