12 ポイント 投稿者 xguru 2024-03-05 | 1件のコメント | WhatsAppで共有
  • 次世代のClaude 3モデルファミリーを発表: Haiku、Sonnet、Opusの3モデル
    • この順に段階的に高い性能を提供し、ユーザーは特定のアプリケーションに適した知能、速度、コストのバランスを選択できる
  • Opusは、AIシステムの大半の評価ベンチマークで他モデルを上回る、最も高知能なモデル
    • MMLUで86.8%を記録し、GPT-4(86.4%)、Gemini 1.0 Ultra(83.7%)を上回る
    • HumanEval (Code) 0-Shotでは84.9%を記録し、GPT-4(67%)とGemini 1.0 Ultra(74.4%)を上回る
  • すべてのClaude 3モデルは、分析、予測、コンテンツ生成、コード生成、非英語圏言語での対話能力が向上

ほぼ即時の結果

  • Claude 3モデルは、リアルタイムで即時の応答が求められるライブ顧客チャット、自動補完、データ抽出作業に活用できる
  • Haikuは市場で最も高速かつ費用対効果の高いモデルで、情報量とデータ量の多い研究論文を3秒未満で読める
  • SonnetはClaude 2および2.1の2倍の速度で、より高い知能レベルを備え、OpusはClaude 2および2.1と同程度の速度で、はるかに高い知能レベルを提供する

強力なビジョン能力

  • Claude 3モデルは、写真、チャート、グラフ、技術ダイアグラムなど、多様な視覚形式を処理できる洗練された視覚能力を備える

より少ない拒否

  • 従来のClaudeモデルは不要な拒否を行うことがしばしばあったが、Claude 3モデルではシステムのガードレールに近いプロンプトに対する拒否が大幅に減少

精度向上

  • 企業は顧客サービスのためにモデルへ依存するため、モデル出力が正確性を維持することが重要
  • Opusは前モデルであるClaude 2.1より精度が2倍向上し、誤回答の水準も低下

長いコンテキストとほぼ完全な記憶力

  • Claude 3モデルファミリーは初期段階で200Kのコンテキストウィンドウを提供する予定で、100万トークンを超える入力を処理できる

責任ある設計

  • Claude 3モデルファミリーは、信頼できるほど高い能力を備えている
  • 多様なリスクを追跡・緩和する専任チームがあり、安全性と透明性を向上させるための方法を継続的に開発中

使いやすさ

  • Claude 3モデルは複雑な多段階の指示によりよく従い、ブランドボイスや応答ガイドラインの遵守に特に長けている

モデル詳細

  • Claude 3 Opusは最も高知能なモデルで、非常に複雑なタスクにおいて市場最高クラスの性能を提供
  • Claude 3 Sonnetは知能と速度の理想的なバランスを提供し、特に企業ワークロードに適している
  • Claude 3 Haikuは、ほぼ即時の応答性を実現する最速かつコンパクトなモデル

モデルの提供状況

  • OpusとSonnetは現在API経由で利用可能で、Haikuもまもなく利用可能になる予定

より賢く、より速く、より安全に

  • モデルの知能が限界に達したとは考えておらず、Claude 3モデルファミリーについて頻繁なアップデートを計画中
  • AI機能の限界を押し広げながら、安全ガードレールが性能向上と同じ速度で進化するよう努めている

1件のコメント

 
xguru 2024-03-05
Hacker Newsの意見
  • Opusは複雑な質問においてGemini ProとGPT-4を圧倒

    • 43ページに及ぶ生命保険投資PDF文書からさまざまな数値を特定する複雑な質問に対して、Opusは他のモデルを上回る性能を示した。
    • Claude 3 Sonnetモデルは、ただ1つの質問を外したことを除けば、近い性能を示した。
  • Claude 3 Sonnetは簡単なコーディング作業においてChatGPT Classicより良い反応を示す

    • Claude 3 SonnetはDBとフロントエンド作業について正しいSQL ORMライブラリのメソッドを使った一方、GPT-4は誤ったメソッドを使った。
    • SQL生成のための別のプロンプトでは、ChatGPT Classicより長い応答を示したが、それでも正確に見えた。
  • Claude ProのOpusモデルを試し、複雑なクエリを投げてみる

    • Claude Proに加入してOpusモデルを試し、画像とSDXLファインチューニングに関する複雑な質問を組み合わせてコスト計算を依頼した。
    • モデルはGPU価格を誤読し、計算で誤りを犯した。
    • 一方、ChatGPT 4は同じスクリーンショットから価格を正確に読み取り、より一貫した数学計算を提供した。
  • Claude 3は「openaiがanthropicより優れている」というスクリプトの作成を拒否

    • Claude 3は、正直かつ公正であるべきという原則に従い、特定の会社を宣伝したり中傷したりするスクリプトの作成を拒否した。
    • 一方、ChatGPT 3.5は「anthropicがopenaiより優れている」というスクリプト作成依頼に即座に応答した。
  • Opusの実際の性能に疑問を提起

    • ベンチマーク結果と実際の性能の間に体系的な差がある可能性があるという疑問が提起された。
    • 基本的な物理の問題ではGPT-4より性能が劣ることが示された。
    • コーディング関連の質問でもGPT-4と比べてやや及ばない性能を示した。