1 ポイント 投稿者 GN⁺ 2024-03-05 | 1件のコメント | WhatsAppで共有
  • AnthropicがClaude 3製品群を公開し、Haiku、Sonnet、Opusによって知能・速度・コストのバランスを選べる新たなモデルラインアップを提示
  • OpusはMMLU、GPQA、GSM8Kなど主要評価で同クラスのモデルを上回り、Claude 3全体では分析・予測・コード生成・非英語での対話能力が向上
  • 速度の差別化が中核となっており、Haikuは約10kトークンのarXiv論文を3秒未満で読み取り、Sonnetは大半のワークロードでClaude 2・2.1より2倍高速
  • Claude 3は写真・チャート・グラフ・技術ダイアグラムのようなビジョン入力を処理し、提供開始時点で200Kコンテキストウィンドウと100万トークン超入力の可能性を備える
  • OpusとSonnetはclaude.aiとClaude APIですぐに利用可能で、APIは159か国で提供され、Haikuは近日公開予定

モデル構成と提供状況

  • Claude 3製品群は性能の低い順にClaude 3 HaikuClaude 3 SonnetClaude 3 Opusで構成
  • 各モデルはアプリケーションごとに知能、速度、コストのバランスを選べるよう設計されている
  • OpusとSonnetはclaude.aiとClaude APIで利用可能
    • Claude APIは一般公開されており、159か国で提供
    • Haikuは近日提供予定
  • claude.aiの無料利用枠はSonnetで動作し、OpusはClaude Pro加入者向けに提供
  • SonnetはAmazon Bedrockでも利用可能で、Google CloudのVertex AI Model Gardenでは非公開プレビューとして提供
    • OpusとHaikuも両プラットフォームに近日追加予定

知能、速度、マルチモーダル性能

  • OpusはAnthropicで最も知能の高いモデルで、MMLU、GPQA、GSM8KなどAIシステム評価ベンチマークの多くで同クラスのモデルを上回る
  • Claude 3モデルは分析と予測、細かなコンテンツ生成、コード生成、スペイン語・日本語・フランス語のような非英語での対話において向上した能力を示す
  • リアルタイム応答が重要な業務に合わせて活用範囲が広がる
    • ライブ顧客チャット
    • オートコンプリート
    • データ抽出
  • Haikuはその知能カテゴリで最も高速かつコスト効率の高いモデルで、チャートやグラフを含む約10kトークンのarXiv論文を3秒未満で読み取れる
  • Sonnetは大半のワークロードでClaude 2およびClaude 2.1より2倍高速で、より高い知能レベルを提供
    • ナレッジ検索
    • セールス自動化
  • OpusはClaude 2およびClaude 2.1に近い速度を維持しながら、より高い知能レベルを提供

ビジョン入力、拒否の減少、精度の改善

  • Claude 3モデルは他の先行モデルと同程度のビジョン機能を備える
    • 写真
    • チャート
    • グラフ
    • 技術ダイアグラム
  • 一部のエンタープライズ顧客では、ナレッジベースの最大50%がPDF、フローチャート、プレゼンテーションスライドのような形式に保存されており、新たな入力形式の重要性が大きい
  • 従来のClaudeモデルは文脈理解の不足のように見える不要な拒否を頻繁に行っていたが、Claude 3のOpus、Sonnet、Haikuはシステムガードレールに近いプロンプトに対して、前世代より回答を拒否する可能性が大幅に低下
  • Claude 3はリクエストをより細かく理解し、実際の害を認識して、無害なプロンプトへの拒否を減らすよう改善されている
  • 精度評価では、現行モデルの既知の弱点を狙った複雑な事実質問セットを使用
    • 回答は正答、誤答またはハルシネーション、不確実性の認識に分類
    • OpusはClaude 2.1比で難しいオープンエンド質問の正答率が2倍に改善し、誤答水準も低下
  • Claude 3モデルには近日中に引用機能が追加され、回答検証のために参考資料の正確な文を指し示せるようになる予定

長いコンテキストと想起能力

  • Claude 3製品群は提供開始時点で200Kコンテキストウィンドウを提供
  • 3モデルすべてが100万トークンを超える入力を受け取れ、一部の顧客にはより高い処理能力が提供される可能性がある
  • 長いコンテキストのプロンプトを適切に処理するには強い想起能力が必要
  • Needle In A Haystack(NIAH)評価は、膨大なデータコーパスから情報を正確に想起する能力を測定
    • 評価の堅牢性を高めるため、各プロンプトで30個のランダムなneedle/questionペアのうち1つを使用
    • 多様なクラウドソーシング文書コーパスでテスト
  • Claude 3 OpusはNIAHで99%を超える精度により、ほぼ完璧な想起を達成
  • 一部の事例では、「needle」の文が原文に人為的に挿入されたように見えると認識し、評価自体の限界を見つけることもあった

安全設計とバイアス対応

  • AnthropicはClaude 3製品群を、能力と同じくらい信頼できるものにすることに注力
  • 専任チームが複数のリスクを追跡・緩和
    • 偽情報
    • CSAM
    • 生物学的悪用
    • 選挙介入
    • 自律複製能力
  • モデルの安全性と透明性を高めるため、Constitutional AIのような手法を継続的に開発
  • 新たな入力形式によって生じうるプライバシー問題を緩和するようモデルを調整
  • Bias Benchmark for Question Answering(BBQ)基準で、Claude 3は従来モデルよりバイアスが少ない
  • Claude 3製品群は生物学知識、サイバー関連知識、自律性の主要指標で従来モデルより進歩したが、Responsible Scaling Policyに基づくAI Safety Level 2(ASL-2) にとどまる
  • レッドチーム評価は、現行モデルの破局的リスクの可能性はごく小さいと結論
  • 追加の安全性詳細はClaude 3 model cardにある

使いやすさ、モデル別価格と用途

  • Claude 3モデルは複雑な多段階指示によりよく従う
  • ブランドボイスや応答ガイドラインを順守し、信頼できる顧客向け体験を作るのにより適している
  • JSONのような構造化出力の生成能力が向上し、自然言語分類や感情分析のようなユースケースでClaudeへの指示が容易になる
  • Claude 3 Opus

    • Claude 3 Opusは高度に複雑な作業で最高水準の性能を発揮する最も知能の高いモデル
    • オープンなプロンプトや未知のシナリオを、高い流暢さと人間に近い理解で処理
    • 価格は入力100万トークンあたり15ドル、出力100万トークンあたり75ドル
    • コンテキストウィンドウは200Kで、特定のユースケースでは100万トークンも可能
    • 想定ユースケース
      • APIやデータベース全体にまたがる複雑な作業の計画・実行、対話型コーディング
      • 研究レビュー、ブレインストーミング、仮説生成、新薬発見
      • チャートやグラフ、財務、市場動向、予測に関する高度な分析
  • Claude 3 Sonnet

    • Claude 3 Sonnetは知能と速度のバランスを目指し、特にエンタープライズワークロード向けに調整されている
    • 同クラスのモデルより低コストで高い性能を提供し、大規模AI展開での高い持続性を目指して設計
    • 価格は入力100万トークンあたり3ドル、出力100万トークンあたり15ドル
    • コンテキストウィンドウは200K
    • 想定ユースケース
      • 膨大な知識に対するRAGまたは検索・参照
      • 製品推薦、予測、ターゲットマーケティング
      • コード生成、品質管理、画像からのテキスト解析
  • Claude 3 Haiku

    • Claude 3 Haikuはほぼ即時の応答性に向けた、最も高速で小型のモデル
    • 単純な問い合わせや要求に非常に速く応答し、人間とのやり取りを模した滑らかなAI体験の構築を目指す
    • 価格は入力100万トークンあたり0.25ドル、出力100万トークンあたり1.25ドル
    • コンテキストウィンドウは200K
    • 想定ユースケース
      • ライブインタラクションでの迅速かつ正確な顧客サポート、翻訳
      • リスク行動や顧客要求を捉えるコンテンツモデレーション
      • 物流最適化、在庫管理、非構造化データからの知識抽出

今後の機能とアップデート

  • Anthropicはモデル知能が限界に近いとは見ておらず、今後数か月にわたってClaude 3製品群に頻繁なアップデートを投入する計画
  • エンタープライズ用途と大規模展開に向けてモデル機能を強化する機能が予定されている
    • ツール利用、すなわち関数呼び出し
    • 対話型コーディング、すなわちREPL
    • より高度なエージェント機能
  • AI能力の限界を拡張すると同時に、安全ガードレールも性能向上に合わせて維持する方針
  • Claudeで開発を始める入口はanthropic.com/claude

1件のコメント

 
GN⁺ 2024-03-05
Hacker News のコメント
  • 自分の LLM コマンドラインツールに Claude 3 モデル対応を追加するプラグインを公開したばかり
    pipx install llmllm install llm-claude-3llm keys set claude で設定したあと、llm -m claude-3-opus '3 fun facts about pelicans' のように実行できる
    コード: https://github.com/simonw/llm-claude-3
    LLM の説明: https://llm.datasette.io/

    • Mac で Automator のクイックアクションを作り、選択したテキストを受け取って llm -m gpt-4 に渡し、結果を osascript のダイアログで表示するようにしたら非常に便利だった
      今ではどのアプリでもテキストをドラッグしてからサービスメニューの LLM を実行でき、キーボードショートカットも付けて、ターミナルのエラー解釈や簡易検索、テキストエディタ/IDE での直接プロンプト入力に使っている
    • Hacker News 要約スクリプトを Claude 3 Opus に切り替えた。元の説明はこちら: https://til.simonwillison.net/llms/claude-hacker-news-themes
      hn.algolia.com API から記事とコメントを取得し、jq で展開したあと llm -m claude-3-opus に渡して、テーマ別の Markdown 要約と直接引用を作らせている
      この 300 件以上のコメントがあるスレッドで実行した結果: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Anthropic API キーの作成は無料のように見えるので、ヘッドレス Chrome でキー入力の段階まで自動化できるのではないかと思う
      pipapt でインストールすればすぐ動くソフトウェアが増えるはずだが、今は人間が API キーを貼り付ける面倒な手順が残っている
      API の上限に近づいたら GPU で少量のビットコインを採掘し、追加の API 容量を自動決済すれば AI 時代らしい、という冗談も言える
    • Mac で Raycast を使っているなら、ユーザースクリプトを作って Raycast インターフェースから LLM CLI とやり取りできる: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • Opus と以前の Claude モデルは、まだ Sally 問題を正しく解けない
    「Sally には兄弟が 3 人いて、それぞれの兄弟には姉妹が 2 人いるとしたら、Sally には姉妹が何人いるか?」という質問に対し、Claude は Sally 自身を除いた姉妹はいないと結論づけ、0 人と答える
    https://imgur.com/a/EawcbeL

    • GPT-4 API と ChatGPT も基本的には間違え、「Sally には姉妹が 2 人いる」と答えたが、段階的に考えることを求めるシステムプロンプトを入れると 1 人と正答した
      プロンプト手法の重要性のせいで、モデルの最高性能を比較するのはかなり難しくなっており、最高性能を引き出すプロンプトのスタイルもモデルごとに異なる
    • ローカルの LLama 13B Q5 はこの問題に対して、Sally には自分自身という姉妹が 1 人おり、3 人の兄弟それぞれに姉妹が 3 人いるので合計 9 人、そこから Sally の分を引いて 8 人だと答えた
    • Sally の親と兄弟たちの親が再婚などで異なる可能性があり、兄弟・姉妹関係は片方の親だけを共有していれば成立すると考えるなら、正解が一意でない可能性がある
      たとえば Sally と 3 人の兄弟が同じ母親を共有しているが父親は違い、兄弟たちには Sally と Mary という 2 人の姉妹がいるものの、Mary と Sally は親の組み合わせが互いに異なるため姉妹ではない、という場合があり得る
    • こうした例のせいで、AI の誇大広告を疑いたくなる
      博士レベルの知能だと言うが、上の問題もまともに推論できず、博士レベルの情報量と高度な推論は別物で、多くの人がその違いを区別できていないように見える
      自動運転でも車線に沿って走るのは簡単だが、車線認識や物体認識は難しく、車が基本動作をしているからといって状況を実際に理解していると錯覚するのと同じように、LLM も似ているように見える
    • これは確かに問題だが、道端の普通の成人に聞いてもかなり多くの人が間違える質問でもある
      モデルが間違えることだけにこだわるのではなく、きちんとやってのける驚くべきことにも目を向けるべき
  • Claude 3 OpusのAPPSベンチマーク70.2% は、コーディングにかなり有用である可能性を示している
    APPSは問題文をPythonコードに変換する能力を測定するもので、問題の平均長はほぼ300語
    興味深いことに、他の最上位モデルはこのベンチマーク結果を公開していない
    Claude 3モデルカード: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    APPSデータセット: https://huggingface.co/datasets/codeparrot/apps
    APPS論文: https://arxiv.org/abs/2105.09938v3

    • Table 2の AMC 10、AMC 12 2023の結果を見ると、Claude 3 Opusはこの数学コンテストに参加した平均的な高校生より優れているほう
      生徒平均はそれぞれ64.4と61.5だが、Opus 3は72と63を記録した
      AMC 12の参加者は米国の12年生全体300万〜400万人のうち10万人未満である可能性が高く、上位層の生徒の半分だけが参加すると仮定しても、AMC平均は米国高校生の上位2〜4%を代表している可能性がある
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • GPQAベンチマークの筆頭著者であるDavid Reinによると、Claude 3は GPQAで約60%の正答率を出しており、これらの問題は本当に難しいとのこと
      他分野の博士号取得者がインターネットを使って30分以上かけて解いても34%、同分野の博士号取得者がインターネットを使っても65〜75%の正答率だという説明
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Anthropicで働いている立場から言うと、最近の業務コードのかなりの部分を Opus が書いてくれている
    • ベンチマークと称賛を見て今日Proに加入したが、普段の作業フローでは完全な災難だった
      ChatGPT-4と比べると 桁違いに悪く 感じられ、実際の使用感は過去へ大きく後退したようだった
    • APPSには難易度別にintroductory、interview、competitionの3つのサブセットがあるが、Claude 3がどのサブセットで測定されたのかは不明
      introductoryだけでも良い成果だが、どの基準なのか分かるとさらによい
  • Claude 3 の説明で、以前のモデルより不要な拒否が減ったという部分がずっと引っかかる
    企業が誰にでもドラッグや爆弾の作り方を学ばせる製品を売りたくないのは理解できるが、自分のコンピューターで動かすモデルが自分の依頼を拒否すると不快だ
    望む結果を得るためにモデルを説得したりだましたりしなければならないが、道具が所有者の命令を拒むというのは、人間と道具の関係に対する侮辱のように感じる
    ハンマーをネジに使いたいならそれは自分の選択であって、ハンマーが決めることではないし、なぜ第三者が定義した「安全」のために AI ツールが所有者の命令を拒むようにすることにこだわるのか分からない

    • 彼らは、多くの開発者が兵器開発への協力を拒むのと似た原則で動いている
      自分の道具を使った他人の行動が良心の負担になることを望んでいないのだ
      ただ、多くの人が思想犯罪を信じ、性に対して清教徒的な信念を持っているため、これに合わせないと評判や資金調達のコストが発生する
      ユーザーがモデルで犯罪を犯したなら法体系が処理すればよく、Big Brother が思想犯罪まで監視する必要はないと思う
    • ハンマーの比喩は不適切で、「核兵器を使いたいなら自分の選択で、誤用・乱用の責任も自分にある」という比喩も同じく不適切だ
      現時点ではハンマーの比喩が概ね当てはまるように見えるかもしれないが、AI アラインメントの側では、これらのシステムはまもなく、遅くとも 10 年以内には能力が大きく向上すると見ている
      道具の基本状態は道徳的に中立で、善人も悪人もより効果的にし、攻撃と防御が対称なら問題は小さいが、そうである理由はない
      自動の大容量機関銃に規制があるのも、単独の悪意ある行為者の攻撃能力と防御不能性の間の非対称性が大きすぎるためで、AI による攻撃が防御よりはるかに容易になるなら、開放性を志向する理念は現実には失敗し得る
      ただし、ガードレールを少数の集団が決めるのは問題であり、AI があまりに早く登場した副作用のように見える
    • ハンマー会社がほとんどコストなしに、ハンマーが人を攻撃するために使われないようにできるなら、多くの会社がそうした機能を入れる気がする
      政府からの圧力や「当社のハンマーは誤って赤ちゃんを傷つけない」という競争上のマーケティングのためであっても、そうするかもしれないし、ハンマーにそうした機能がないのは選択ではなく限界の副産物かもしれない
    • 権利意識が強すぎると思う
      Photoshop が紙幣の画像を編集できないようにしているのも不快なのか? そのモデルはユーザーのものではないし、何十億ドルもかけて開発したのもユーザーではない
      商用ソフトウェアがいつもそうであるように、開発者が定めた条件で使うか、まったく使わないかだ
    • 拒否に腹を立てる人たちは、AI 市場の実際の顧客とお金がどこにあるのかを理解していないようだ
      目標市場は、さまざまな業務を自動化して数億〜数十億ドルの人件費を節約しようとする大企業であり、彼らが求めているのは正確な情報と適切なガードレールを備えた信頼性の高いモデルだ
      大手多国籍保険会社が、顧客サポートのチャットボットをいたずらで誘導した顧客にエロティカを書いてしまう可能性を受け入れるはずがない
      重要なユーザーは個人ではなく、感情労働を担う顧客サポート人員を置き換えようとする雇用主たちであり、彼らは制御され、親切で、ガードレールのある人間の代替物を求めている
  • Opus は複雑な質問で Gemini Pro と GPT-4 を圧倒した
    43 ページの生命保険投資 PDFから複数の数値を見つけ出すタスクで、他のモデルはまったく及ばなかった
    Claude 3 Sonnet だけが、1 つの質問を取りこぼす程度まで近かった

    • Gemini Pro 1.5 の 100 万トークンのコンテキストウィンドウとも比較したのか気になる
      43 ページの PDF には理想的かもしれず、アクセス権があるので Pro 1.5 でテストできる
    • Sonnet に GAN 関連の質問をしてみたが、かなり良く、GPT-3.5 より良さそうだった
    • Sonnet を使ってみたが、あまり良くなかった
  • Claude Pro に加入して Opus を試しながら、画像と SDXL のファインチューニングに関する複雑な質問を投げ、RTX 6000 Ada と H100 のコスト比較計算をさせたところ、ミスが多かった
    Runpod の GPU 価格のスクリーンショットを渡したら、RTX 6000 Ada の価格を $1.14 ではなく $0.114 と読み間違え、その後の計算でも .278 * $0.114.116 * $4.69 が提示した合計額と一致していなかった
    一方 ChatGPT 4 は同じスクリーンショットから価格を正しく読み取り、RTX 6000 Ada が利用不可である点に気づいて自ら 4090 に置き換え、より一貫した計算をした

    • GPT は入出力トークンに別の補助関数を走らせて、トークン化の問題を補正しているように思う
      数式の項目を見つけて手製のパーサーと関数に送り、結果を出力トークンに再び差し込むような形でなければ、この問題を直す方法はなさそうだ
      参考: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Anthropic の CISO としてフィードバックに感謝する。画像の詳細を共有できるなら、非公開メッセージで送ってほしい
      まだどの LLM も創発的な計算機を持つようになったことはない
    • OpenAI が、ビジョン機能付き GPT-4 はビジョンなしの GPT-4 より賢いと言ったとき、正確に何を意味していたのか気になる
      ビジョン能力が、画像入力のないタスクでも知能を高めるという意味なのか?
    • 違いはおそらくスクリーンショットの読み取りで生じているようで、テキストだけを与えれば GPT-4 と同程度に見える
      例えば複雑な算術式で、計算機の正解は 22.08555452004、Python なしの GPT-4 は 22.3038、Claude 3 Opus は 22.0492 を出した
    • 本当の経済的破壊者は、「この 1,000 ドルを投資して収益を最大化し、100 倍にしろ」のような命令が可能になったときだと思う
      その次は r/wallStreetBets ボットを好きなだけ走らせるような形だ
  • DBとフロントエンドが絡む簡単なコーディング作業のプロンプトを1つ試したところ、無料でより弱いモデルである Claude 3 Sonnet が ChatGPT Classic より良い答えを出した。
    あまり知られていない SQL ORM ライブラリの正しいメソッドを使っており、GPT-4 は誤ったメソッドを使っていた。
    ただし SQL 生成プロンプトでは ChatGPT Classic より悪い答えを出し、正しそうには見えたものの、はるかに長かった。
    ChatGPT リンク 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    ChatGPT リンク 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • そのチャットでは GPT-3、またはそれより弱いモデルを使っているように見える。
      緑色のアイコンは第1世代の ChatGPT モデルを意味し、おそらく GPT-3.5 Turbo である可能性が高い。
      GPT-4 で実行すると予想どおりの結果になる: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      インターネット上にある ChatGPT の失敗例の相当数は、弱いモデルの結果だと分かる良い例。
      緑背景の OpenAI アイコンは GPT-3.5、黒または紫のアイコンは GPT-4 で、API の GPT-4 Turbo は Drizzle の知識がより多いからか、少し良かった。
  • Opus を少し使ってみたところ、ベンチマークが実性能と体系的にずれているのではないかと疑い始めた。
    実際には GPT-4 より良く見えず、むしろ少し悪く見える。
    基本的な微積分/物理の質問では、減速が速度に比例すると明示したにもかかわらず一定減速だと仮定し、交通シミュレーションのテストでは以前に会話した方向の概念を忘れて、GPT-4 のすでに悪い結果よりも劣っていた。
    文脈内で教えた後に基本的な光の色を理解するテストもより悪く、コーディングでは長期キャピタルゲイン税の計算問題で GPT-4 に少し後れを取った。

    • YouTube の AI Explained は以前、LLM 評価に使われるテストが誤答だらけでほとんど役に立たないという動画を上げたことがある。
    • モデルを訓練して数値を得るやいなや、安全チームが RLHF で徹底的に磨き上げているように見える。
  • Claude 3 を https://double.bot の Chat に追加したので、コーディング用に試せる。
    今は無料で、今日の午後にはオートコンプリートにも Claude 3 を入れる予定。
    初期テストでは GPT-4 に対する最初の API 代替のように見え、大きな出来事だ。

    • Double は Copilot のようなものだが無料という意味なのか?落とし穴が何なのか気になる。
    • Codeium とどう比較されるのか気になるし、Vim/Neovim 統合をサポートする計画があるのかも知りたい。
      Codeium はすでにかなり良いサポートがある。
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • Double がローカルやクラウドインスタンスにホストしたオープンソースモデルもサポートする計画があるのか気になる。
      同じ分野で製品を作っているが、こうした要望を何度か受けたことがあり、IDE 拡張なら、どこで動いている AI モデルであれ接続できそうに思う。
    • API は今のところ GPT-4 より安定性が低いようだが、リリース直後のエンドポイントが人気を集めている状況なら理解できる。
    • 正確に言うと、これは Claude 3 Opus なのか Sonnet モデルなのか気になる。
  • どんなモデルであれ、GPT-4 を超えることは大きな出来事であり、それを成し遂げたのは非常に印象的だ。
    ただし GPT-4 は1年前のモデルで、OpenAI はまだ次世代モデルを公開していない。

    • OpenAI の次のモデルが首位を取り戻すだろうと予想するのは自然だが、Anthropic がここまで追いついたのは非常に印象的だ。
      GPT-3 論文は2020年に出ており、Anthropic は2021年になって設立されたので、OpenAI が3世代分の経験を積んだ状態で、Anthropic は実質的にゼロから出発し、一部のベンチマークで一時的にせよ上回ったことになる。
      OpenAI の次世代モデルはすでに学習を終え、微調整と安全性評価の最中だと思うが、Anthropic の存在理由が安全性である以上、このモデルを急いで出すためにその部分をおろそかにしたとは考えにくい。
    • ChatGPT-4 は継続的に更新されており、最近のバージョンは GPT-4-1106-previewGPT-4-0125-preview
      参考: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • ブログの脚注によると、評価用プロンプトと few-shot サンプルを最適化したエンジニアたちは、より新しい GPT-4T モデルでより高いスコアを報告したとされている。
    • GPT の誕生に重要な役割を果たした人たちは、今では Anthropic で働いている。
    • あの表で実質的に重要な指標は MMLU で、これはマルチタスク推論能力と強く相関している。
      ここで GPT-4 をごくわずかに上回っており、これまで他のモデルはそれができなかったようなので、それ自体が印象的だ。