3 ポイント 投稿者 GN⁺ 2025-07-18 | 1件のコメント | WhatsAppで共有
  • Mistral AIはLe Chatに5つの新機能を追加し、ユーザーの探索・表現・整理をより自然かつ強力にした
  • Deep Researchモードは、複雑な質問を構造化されたリサーチレポートとして素早く整理する機能を提供する
  • 音声モードは、新しい音声モデルVoxtralにより自然で高速な会話を可能にし、タイピングなしでも利用できる
  • Magistralベースの多言語推論機能により、さまざまな言語で明確かつ深みのある応答を生成し、文中での言語切り替えも可能
  • Projects機能は、会話・文書・アイデアをプロジェクト単位で整理して記憶し、長期的な作業にも適している

What’s new in Le Chat.

1. Deep Research mode

  • 複雑なテーマを構造化されたレポート形式で素早くリサーチできる機能
  • ユーザーの質問を細分化し、信頼できる情報源を見つけて整理されたレポートとして生成する
  • ツールベースのDeep Researchエージェントを利用するが、ユーザー体験はシンプルで透明性が高く、共同作業しているような感覚を与える

2. Voice mode

  • Voxtralという新しい音声モデルを用いて、自然な音声対話が可能
  • 散歩中のアイデア出し、外出先での素早い質問応答、会議内容の文字起こしなど、さまざまな状況に適している
  • 低遅延でユーザーの話すスピードに追従する

3. Natively multilingual reasoning

  • Magistral推論モデルを基盤に、さまざまな言語で複雑な質問に明快に応答する
  • スペイン語で提案書のドラフトを作成したり、日本語で法律概念を説明したりと、多言語活用に有利
  • 文中での言語切り替え(コードスイッチング)も可能

4. Projects

  • 関連する会話をコンテキスト中心のフォルダ形式で整理
  • 各プロジェクトは固有のライブラリとツール設定の状態を記憶する
  • 文書のアップロード、ライブラリ内容の読み込み、会話やアイデアとともに一貫した作業環境を維持できる
  • 引っ越し計画、製品機能の設計、長期プロジェクト管理などに役立つ

5. Advanced image editing

  • 一般的なテキスト-to-画像生成ツールとは異なり、生成された画像も直接編集可能
  • 例: 「オブジェクトを削除」「別の都市へ移動」などのプロンプトでシーンを修正可能
  • 人物、物体、デザイン要素などを一貫性を保ちながらシリーズとして編集できる

1件のコメント

 
GN⁺ 2025-07-18
Hacker Newsのコメント
  • 画像編集機能は本当に優れているように思う。むしろそれが中核なのに、あまり目立っていない感じがする。OpenAIのモデルは画像全体を変えてしまい、クエリと無関係な部分の細部まで損なうが、このモデルはクエリに関係ない部分を完璧に保持したまま、望んだ編集だけを非常にうまく適用しているのが印象的だった。ただし、出力解像度は物足りないレベルだ(入力画像はもっと大きかったのに、結果画像は 1184px だった)。自宅オフィスの写真をアップロードして「下部の少し破れた灰色のパネルを完全に新品のように修復してほしい」と頼んでみたが、結果はかなり良かった。出力品質は元画像よりごくわずかに落ちるが、この点もすぐ改善されるだろうと期待している

    • 入力画像: https://i.imgur.com/t0WCKAu.jpeg

    • 結果画像: https://i.imgur.com/xb99lmC.png

    • こういう技術は Craigslist に大きな打撃を与えそうだ。たとえば、写真ではまともな車に見えて訪ねていったのに、着いてみたらフェンダーはへこみ、ボンネットには穴があり、ヘッドライトも割れている、ということが起きる。
      不動産仲介業者が AI で住宅写真を完全に作り変えた事例もあった(老朽化した家を新築のように見せた)。人々は実際に現地を訪れて激怒していた。仲介業者はこれも演出の一種だと主張したが、このケースではまったく通用しなかった。結局その物件は取り下げられ、多くの人が修理しに来ることまであった(家族だった可能性が高いが、確かではない)

    • ちなみに、載せてくれた入力画像と結果画像のリンクが同じだ。最初、写真の違いを探そうとして混乱した

    • 特定の作業では Kontext のほうがたぶん優れていて、Mistral はおそらくこれを使っているのだと思う。何より速くて安い。
      ただ、OpenAI も昨日より高画質な画像編集機能を新たに追加した。この機能が API にだけ適用されるのか、チャット UI にも適用されるのかはまだ分からない。同じプロンプトと入力画像での結果: https://i.imgur.com/w5Q0UQm.png

    • OpenAI の新情報: https://x.com/OpenAIDevs/status/1945538534884135132

    • Black Forest Labs の Flux Kontext を使っていて、本当に優れたモデルだ

    • 画像結果では本のタイトルが崩れている

  • ついに EU が目を覚ました感じがする。この点は誇らしい。OpenAI との契約が終わりしだい、すぐに Mistral へ移るつもりだ。ヨーロッパを支持すべきだ、Viva La France

    • 実は私は Mistral Large 3 を待っているところだ。すでに示唆はあったし、新しい Le Chat のデフォルト言語モデルとして近いうちに採用されそうだ。
      5月の Mistral Medium 3 のブログ記事の「One more thing」にはこんな内容があった:

    3月に Mistral Small、今日 Medium、そしてまもなく 'large' の投入準備中。Medium モデルはすでに他のオープンソースの代表的モデル(Llama 4 Maverick など)を明確に上回っているので、次の段階が楽しみだ
    このバージョンなら、もはや最高クラスの大規模モデルとの差もそれほど意味を持たなくなる気がする。Cerebras の高速さは ChatGPT と比べても本当に優れたユーザー体験だ

  • MRF、つまり Model Release Fatigue(モデルリリース疲れ)に悩まされている。巨大モデルがあまりに頻繁に出てくるので、IDE でモデルを次々切り替えて試し、前までうまくいっていたものをもう一度有効にすると、今度は良く見えなくなる。
    Claude 4、gpt、llama、Gemini 2.5、pro-mini、mistral… 毎日乗り換えていると、ずっと頭がくらくらする感じだ
    LLM モデルの切り替えによる疲労だ

    • そう感じるのは分かるが、これだけ多様な選択肢が次々出てくるのは本当に良いことだと思う。イノベーションの速度も素晴らしい。常に最高のモデルだけを使いたいなら大変な道のりだろうが、停滞や独占よりはずっといいと思う

    • だから私はこういう新技術をほとんど試していない(面白くはあるけれど)。2026年後半ごろに自分で使ってみるつもりだ。そのころにはローカルモデルとハードウェアも発展しているだろうから。
      今この実験版の波に付き合っている人たちには敬意を表したい

    • こういう競争はむしろ本当に良いことだ。私はいつもプレミアムモデルだけを使っているが、ほとんどお金を使っていない。プロモーションやほぼ無料に近い機会がいつもある

    • 無理に追いかける必要はない。自分に合うモデルを一つ継続して使えばそれで十分だ

    • 旧バージョンの性能が落ちるのは、サービス提供者が新バージョンにリソースを集中しているからだ。それに旧バージョンは学習データのカットオフの影響もある(例: claude sonnet 3.5→3.7)。
      個人的には Claude/Anthropic だけを使っている。よりよく理解してくれるからだ。十分に賢いので、最新バージョンを無理に使う必要があまりない

  • Voxtral のリリースが興味深かったのは、競争力のあるオープンソース音声文字起こし(transcription、音声→テキスト)が再び活発になってきたからだ。LLM バックボーンが本当に必要だったのかは疑問だが、とにかくアプローチは面白い

    • 実際には強力なオープンソース音声認識(STT)モデルはずっと多い。
      Mistral のプレスリリースだと Whisper 以後で最高であるかのように感じさせるが、実際の比較対象は上位陣ではない。
      オープンベンチマーク: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
      参考までに、Mistral が比較した Scribe は 10位だ。
      英語ベンチマークではあるが、多言語モデルも多いので参考になる(例: https://huggingface.co/nvidia/canary-1b-flash
  • 今ではオープンコードやオープンウェイトより、オープンな(倫理的にも検証可能な)データモデルのほうにずっと関心がある。
    たとえば、自分が指定したリソースが学習データに入っているかどうかを教えてくれるモデルを使いたい

  • 最近の AI 業界は OpenAI のサービスをただ複製しているだけ、という印象を拭えない。
    他社のサービスもほぼ構造が違うだけで同じサービスだ。
    イノベーション自体も実際にはそれほど高くない

    • 実際に使ってみると、まったく同じではない。コーディングのような日常的な作業では、モデルごとの差は非常に大きい

    • 世界全体がいま f(input: string): string 関数を土台に新しいサービスを積み上げている感じだ。似てくるのは避けられない

    • OpenAI も Deep Research 機能を Google から持ってきた。同じ名前を使っているし、Mistral も同じだ

    • むしろこれは健全な市場競争だ。何十年にもわたってイノベーションを続けた Apple のような例は、独占的なゲートキーピングの産物でもある

    • 結局のところ、ほぼ同じ技術が広く使われている。違いは学習データと計算資源の規模くらいだ

  • ChatGPT をかなり多く使っている。Le Chat も一度使ってみようと思うが、大きな違いがあるのか、それともほぼ似たようなものなのか知りたい

  • まだ OpenAI の Deep Research 機能を使ったことがないなら、ぜひ使ってみることを勧める。代替として使えるサービスはまだ見つかっていない。Google のものも使ったが、それほど印象的ではなかった。
    エンジニアがトレードオフ調査をするとき、膨大な時間短縮効果がある

    • Anthropic の Research 機能もかなり良い。OpenAI レベルだと思う。
      Google は有料版のほうが少し正確だが、結果レポートが冗長すぎて読みにくい。まるで語数を稼ぐために内容を水増しした大学生のレポートのようだ

    • 私は特に市場調査で大いに助けられた(スタートアップ関連)。賢い新人プランナー/PM アシスタントを雇ったような感じだ

    • Kimi 2 のリサーチ機能も試してみることを勧める。思った以上に結果が良くて驚いた

    • OpenAI と Gemini の結果はかなり違って出る。どちらが良いとは言えず、単にはっきり違う

    • Perplexities も悪くない。ただ、OpenAI の有料サブスクがないので直接比較はできない

  • プロンプト例がいまひとつだ。たとえば個人の計画に関する回答は、Deep Research を使わずにそのまま答えさせたほうが、むしろずっと良い(ビザ項目だけはちゃんと答えている)

  • Voxtral はもしかして Futo Android キーボードに適用できるのだろうか