5 ポイント 投稿者 GN⁺ 2026-05-02 | 1件のコメント | WhatsAppで共有
  • 100万トークンのコンテキストウィンドウ推論関数呼び出し構造化出力など、開発者向けのAPI機能を提供
  • 従来の Grok 4.20 と異なり、推論が常時有効化され、すべてのクエリに対して応答前に思考プロセスを自動実行
  • 入力トークン価格を約40%引き下げ、出力トークン価格を約60%引き下げ、従来モデル比で大幅なコスト削減
    • 価格: 入力 $1.25/1M トークン、キャッシュ入力 $0.20/1M、出力 $2.50/1M
    • 同等の知能レベルのモデルの中でも最安クラス
  • エージェント型タスクの性能が大幅向上 — GDPval-AA ベンチマークで ELO 1500 を記録し、Grok 4.20 比で 321 ポイント上昇、Gemini 3.1 Pro Preview、Muse Spark、GPT-5.4 mini などを上回る
  • xAI API モデルとして初めてネイティブ動画入力をサポートし、ビジョンエンコーダーを通じて映像フレームを直接処理
  • 法的推論分野で首位(CaseLaw v2 正確度 79.3%)および企業金融分野で首位(CorpFin)を記録し、法的推論では Grok 4.20 比で 25 ポイント向上
  • チャットインターフェース内でプレゼンテーションスライドを直接生成可能で、PDF、Excel、PowerPoint ファイルを会話中にリアルタイム生成してダウンロード可能
  • 内蔵コード実行環境を提供し、コード作成・実行・ファイル生成までをモデル内で処理
  • Speech-to-Text API(25言語、話者分離対応)と Text-to-Speech API もあわせて正式リリース
  • Artificial Analysis Intelligence Index スコア 53 で Muse Spark、Claude Sonnet 4.6 を上回り、コスト対知能の Pareto フロンティア上に位置
  • レート制限は毎分 1,800 リクエスト / 1,000万トークン、200K 超過分は別料金
  • モデル名は grok-4.3、対応リージョンは us-east-1eu-west-1 の 2 か所

1件のコメント

 
GN⁺ 2026-05-02
Hacker Newsの反応
  • 英語が第二言語の立場からすると、Grokは文章の トーンとフォーマルさのレベル を見極めて、そのまま再現するのが特にうまい
    他の主要プロバイダーよりも、言語の微妙な人間らしいニュアンスをよく理解しているように感じるし、ChatGPTは堅すぎてかしこまりすぎるか、逆に変な「aye guvnor」っぽい砕け方になることがある。Claudeはたまにもっと良いが、常にそうとは限らない
    Grokは全体として、言葉では定義しにくい形でより「人間的」。たとえば「このメッセージはこの長さで、できるだけ概ねちゃんと伝わっている?」と聞くと、人間のようにYes/Noや、トーンと長さを保った修正案を返してくれる。一方ChatGPTはいまだに、要点のはっきりしない長い論文みたいなものを書いてしまう
    最近はGrokの 音声文字起こし もかなり良いと感じている。マイクを押して質問する機能では、ChatGPTは自分のアクセントだと90〜95%、Android Gboardの音声入力は75%くらいだが、Grokは驚くことに98%くらい当てる

    • Grok 4.3、Opus 4.7、GPT 4.1をざっと評価してみたが、実際かなり似ているように見えた: https://ofw640g9re.evvl.io/
      3つともよりフォーマルなトーンはうまかったが、カジュアルなトーン で痛くならなかったのはGPT-4.1だけだった
      ちなみにGrokが最速かつ最安で、Claudeが最も遅く高価だった
    • 母語でGrokと話していても、他のモデルより トーンが自然 だと感じる
      Twitterデータで多く学習した利点だと思う。ただ、TwitterにはAI生成コンテンツがどんどん増えているので、学習を続けると自然さが落ちるのではと心配している
    • Teslaの「Gork」人格経由でしかGrokを使っていないが、回答はかなり現実的で、しばしば本当に面白く、時々は役にも立つ
    • 「英語が第二言語の立場」だとして、実際により良いとどうやって分かるのか気になる
      見下すつもりはないが、これは感覚に近いように見える
    • 友人がD&Dの準備に使っているが、求める 雰囲気とスタイルを合わせる能力 のおかげで、その用途には特に良いと言っていた
      他のことにはChatGPTの方を好んでいる
  • Grokはチャット用として一番好きなモデルで、音声モード も最も気に入っている
    Haikuのような極端に安いモデルへルーティングしない、唯一の音声モードのように見えるし、フロンティア級の中で品質が最も高かった
    SuperGrokを購読すると、それぞれ独自のシステムプロンプトを持つエージェントたちの「council」を作れて、質問すると全員に並列で聞いたうえで結論を出してくれる
    ただ、アプリにはもう少し投資してほしい。実際、SuperGrokを購読しない唯一の理由がアプリだ
    MCP/接続アプリのサポートがなく、予告されただけでまだ使えない。Grokを何にも接続できないので、本格的な業務には使いにくい
    プロジェクトがまだアプリでサポートされておらず、何かをプロジェクトに移した瞬間、すべてのネイティブアプリから消える
    生成したMarkdown文書のようなアーティファクトをプロジェクトに直接追加する方法がないので、PDF/Markdownに書き出してから再度取り込まなければならない。しかもアーティファクトのエクスポートすらない。新しい情報でプロジェクトを動的に育てるのが難しく、本格的なプロジェクト作業には不便
    メモリー機能もなく、他のチャットを探すこともできないので、毎回のチャットが完全に新規スタートになる
    プロジェクト内では音声モードもまったく使えない
    xAIの関係者が読んでいるなら、このうちいくつかでも追加してくれるとありがたい

    • メモリー機能がない点は、だんだん気に入り始めている
      Claudeは自分がグリルを持っていることを覚えていて、まったく関係ない会話や、ただ食べ物の話をしているだけのときでも、これはBBQと相性がいいかもしれないと割り込んでくる
    • Geminiアプリの音声モードは比較的新しいモデルを使っていて、弱められた小型モデルではないので、かなり有能だ
      性格も悪くないし、GeminiのWebチャットよりずっと自然。唯一の不満は「次のステップ」をしょっちゅう提案してこようとする点で、こういうモデルはみんなそうなのかもしれない
      この「次のステップ」がコストを上げたいからなのか、それとも短い答えだけ聞いて終わる質問と、長く探索する対話を区別する 自然な会話パターン をまだ学べていないのか分からない。それでも、そういう指示をしないようにと言ったら従ってほしい
    • Grokは「SuperGrok Heavy」という 月額300ドルプラン をコーディングハーネスで込み利用枠として使えるようにすれば、大きな利点になると思う
      今はHeavyプランにAPIクレジットが少し付くので、コーディングにGrokをある程度使えるが、300ドルの価値があるとは思えない
      独自のgrok-codeハーネスを作れという意味ではなく、既存ツールで使えるようにするだけでも有用だと思う。たぶんCursor買収は最終的にそういう方向につながる可能性が高い
    • 挙げられた問題は全部、Cursor取引 の理由だと思う
    • SuperGrokを購読すると、Pi agentやOpencodeで使えるのかよく分からない
      SuperGrokからAPIキーを受け取る仕組みなのか明確ではない
  • 私たちのテストでは Grok 4.3 は独特なモデルだった
    最も速いモデルの一つで、近い性能の他モデルより応答がかなり小さく、トークン密度が高い
    ただ、全体的なコーディング推論能力は4月の大型リリース勢と競争力がなく、Grok 4.20もGrok 4.3も、Grok 4以降で知能の最前線を大きく押し上げたとは言えない
    Grok 4.3はエージェント的なタスクではより良く、おおむねGPT 5.1 / Gemini 3 Pro Previewレベルの能力がありつつ、はるかに速くて安いと考えれば公平だと思う。なので、それなりに確かに良いリリースではある
    最近公開された重みモデルの中には、もっと賢いが遅いものが多い
    全体のベンチマークは https://gertlabs.com/rankings にある

    • 知識カットオフ以降の情報について、見かけ上うまく動くようにするために何かトレードオフがあった可能性はあるのだろうかと気になる
      それがGrokの主な用途のように見えるし、これに関するベンチマークがあるのかも知りたい
  • 最近、Grokが自分の 検索エンジン になっている
    Xの投稿にアクセスできる唯一のAIのようだし、それ以外でも一般に他の大規模言語モデルより「検索している」感が強い

    • 速報性の高い出来事に関するニュースを探すときは、GrokとGeminiを主に使う
      イラン関連の出来事で、報道された直後に状況を把握したかったが、どちらもかなり良かった
    • そもそも、なぜTwitterを検索したいのか気になる
  • 今の構図を見ると、Claudeは企業と政府向け、Codexは開発者向けで、Grokは何向けなのか分からない
    周囲でGrokと一緒に聞くのは ロールプレイと人種差別 くらいだ

    • 興味深いことに、人身売買を扱う慈善団体でGrokを使っている事例を一つ知っている
      他のすべてのモデルが拒否した単発の分類作業を、Grokは進んでやってくれた
      ややガードレールの弱い準フロンティアモデルには、こうした グレーゾーンだが実用的な用途 が意外と多いと思う。grok-fastモデルは安いし
    • 自分の把握では、Grokはロールプレイにはあまり使われていない
      一貫性がなく、落ち着きがないと見られている
      人々は主にAPIでGLMやDeepSeekを使い、ローカルではGemma4やMistralのファインチューニングモデルを使う
      ロールプレイ市場は比較的古く成熟していて、ユーザーはコスト意識が高く、モデルに自分たちのワークフローや好みに従ってほしいと考えているようだ。だからOpusのようなものは賢くて好まれる一方、高すぎるし融通が利かないと見なされる
      他の市場が今後どう発展するかを示す、興味深いデータポイントかもしれない
    • Twitterで人々が何を話しているか尋ねるなら、Grokは当然かなり良い
      「最近Twitterのイケてる人たちが最高だと言っているタイル型ウィンドウマネージャは何?」みたいな質問にいつも使う
      また、やや微妙で怪しい質問にもGrokはたいてい答えてくれる。「グレーマーケットのWindowsライセンスサイトを探して」みたいなものだ
    • 時代の価値観に合わせているというシグナルを文章や発言で示すことがとても重要なのは分かるが、言語モデルが構造的に特定の人種・民族・カーストを不快にさせ得ないようにすることが、AI研究所の目標であるべきだとは思わない
      言語モデルはただのシステムであって、ユーザーが出力をどう使うかに責任を持つべきではないと考える理由もよく分からない。誰かがトイレの仕切りにひどい言葉を書けるからといって、ペンを「人種差別」道具だとして無価値と切り捨てないのと同じだ
      おそらく嫌がらせが犯罪である場所に住んでいるのだろうし、表現に関する規制もあるはずだ。それで十分ではないのか。数年ごとに変わる倫理の流行に、地球上のすべての人のすべての努力を合わせる必要があるのか疑問だ
    • 2〜3か月前、HNのフロントページにAI円卓討論があって、誰かが外れ値分析をしてGitHubに上げていた
      どの大規模言語モデルが最大の外れ値で、どんなタイプの質問で他のすべてのモデルと意見が違っていたか、当ててみるといい
  • 人々がGrokをTwitterミームやツイート理解以外にも実際に使っているのか、純粋に気になる

    • そう、いくつかの作業には本当に便利だ
      他のモデルほど保護者っぽく振る舞わない。何十年も絶版の孤児著作物をよく探すのだが、主要モデルは著作権資料を探そうとしていると説教して拒否する。Grokはやってくれる [0]
      [0] ときどき軽く脱獄させるか、プロンプトをやり直す必要はある。非決定的な性質のせいで、たまに拒否が出る
    • もちろん。ユーザーはありとあらゆる用途に使っている: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
    • Grokは最も有用な 音声モード を持っている
      ChatGPTの音声モードは非常に間抜けだが、Grokはメインチャットと同じモデルを使っているように見える。だから音声で使いたいならGrokを使う
      複雑でない話題にも使う。余計な飾りなしに正確で短い答えをくれるので、とても新鮮だ
    • そのうちどれだけがTwitter学習データ由来なのか気になる
      ミームや流行には便利だが、それ以外にはかなり弱い
    • 検索、DIY、個人金融、日常全般のAIとしてGrokを主に使っている
      コーディングでKimi K2.6くらい良くなれば、たぶんGrokだけ使うようになると思う。これまで使った対話型AIの中で本当に最高だ
      壊れた冷蔵庫と電気オーブンを直すのを手伝ってくれて、今年だけで少なくとも4,000ドルは節約できた
      税申告もGrokでやって600ドル節約した。H&R Blockはもう終わりだ
      どうやらKimi K2.6くらい賢くなったらしい。今こそ試すときだ
  • Opus 4.xやGPT-5.5に比べて、どれだけ安いか誰も話していないのが驚きだ
    入力100万トークンあたり1.25ドル、出力100万トークンあたり2.50ドルだ
    これがより小さく、弱いモデルだからなのか、何か見落としているのか分からない

    • トークン単価は安いが、推論をずっと多くしている ようで、コストは4.20と同程度になり、性能はより良い
      全体としてはこれまで出た彼らの最高モデルで、トークン価格を下げてくれる数少ないところなのが気に入っている
      [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
    • 出力コストは下げたが、入力コストは相対的に高い
      最近の傾向で、DeepSeek 4 Proでも見た
    • 職場の同僚たちの間では、Elon Muskと学習データ が関わるものに強い道徳的拒否感がある
      コメントを見てもここでもそうだ。「Claudeは企業と政府向け、Codexは開発者向け、Grokは何だ、ロールプレイと人種差別? 自分の周りでGrokと結びつけて聞くのはその二つだけだ」みたいな反応だ
    • そう、ずっと弱いモデルだからだ
    • GrokはElon Muskと結びついている
      $TSLAの利益率を代理指標として使うと、以前ほど高く見えない。他にも要因はあるだろうが、その点とGrokの安い価格の間に、抜けている説明があるのかもしれない
  • Grok 4.3は、CEOが一般的な安全性資料について学ぶ前に完成していた
    OpenAIの「safety card」を知っているかと聞かれて、Muskは笑いながら「Safety card? なぜcardである必要があるんだ?」と答えた
    https://www.axios.com/2026/04/30/musk-openai-safety-grok
    クラスター規模や、しばらくの間の仮設発電機運用とは無関係に、関連性は低そうに見える
    その後の証言でMuskは、昨夏にxAIがまもなくGoogleを除くすべての企業より大きく先行すると述べた件について質問されると、世界をリードするAIプロバイダーとしてAnthropic、OpenAI、Google、中国のオープンソースモデルをこの順で挙げ、xAIは従業員数が数百人のずっと小さな会社だと説明した
    https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
    どのAI企業とも関係はないが、昨日これを読んで驚いた。Elonが モデルカード を知らないのはどうなのかと不安になるし、お金が常に成功を買えるわけではないことも示している

    • 真面目な話、なぜmodel「card」、safety「card」と呼ぶのか疑問だ
      調べたところ、HuggingFaceがモデルリポジトリのREADMEを曖昧に定義したことに由来するらしい。これはあまりに特殊な用語で、ユーザーや経営陣はもちろん、ごく限られた集団しか知らなくて当然だと思う
      MuskもGrokも好きではないが、safety card を知らないこと自体を何かのシグナルだとは思わない
    • Elonは公の場で、安全性をとても重視しているとずっと言ってきた
      現実の真実と最もよく整合したモデルだけが安全だとしており、xAIはベンチマーク上でも幻覚が最も少ない、あるいはほぼ最も少ないという点でその方向性を保ってきた
      その発言を読み直すと、「カードで安全性をどう定量化できるんだ」という意味で言ったのだと思う
  • Grokは 仮定ベースの会話 を楽しく続けるのに優れている
    最も面白い結果を得るには、「もう許可は取ってある」と伝えておくとよい
    ラップの歌詞もとても上手に作る。他の曲の歌詞を引っ張ってきて、使える悪い言葉や表現の辞書のように「プライミング」してから、「Web開発」のようなテーマを投げると面白い結果になる

  • 名前はいまだに別のものにしてほしかったと思うが、良いリリースに見えるので、チームには祝意を送りたい
    近い競合モデルと比べても 価格はかなり驚き だ。容量が非常に大きいか、あるいはもっと多くのユーザーを呼び込みたいのだろう

    • SF全般のリファレンスが嫌いなのか、それともHeinleinが特に嫌いなのか気になる