Claude 3モデルファミリー
(anthropic.com)- AnthropicがClaude 3製品群を公開し、Haiku、Sonnet、Opusによって知能・速度・コストのバランスを選べる新たなモデルラインアップを提示
- OpusはMMLU、GPQA、GSM8Kなど主要評価で同クラスのモデルを上回り、Claude 3全体では分析・予測・コード生成・非英語での対話能力が向上
- 速度の差別化が中核となっており、Haikuは約10kトークンのarXiv論文を3秒未満で読み取り、Sonnetは大半のワークロードでClaude 2・2.1より2倍高速
- Claude 3は写真・チャート・グラフ・技術ダイアグラムのようなビジョン入力を処理し、提供開始時点で200Kコンテキストウィンドウと100万トークン超入力の可能性を備える
- OpusとSonnetはclaude.aiとClaude APIですぐに利用可能で、APIは159か国で提供され、Haikuは近日公開予定
モデル構成と提供状況
- Claude 3製品群は性能の低い順にClaude 3 Haiku、Claude 3 Sonnet、Claude 3 Opusで構成
- 各モデルはアプリケーションごとに知能、速度、コストのバランスを選べるよう設計されている
- OpusとSonnetはclaude.aiとClaude APIで利用可能
- Claude APIは一般公開されており、159か国で提供
- Haikuは近日提供予定
- claude.aiの無料利用枠はSonnetで動作し、OpusはClaude Pro加入者向けに提供
- SonnetはAmazon Bedrockでも利用可能で、Google CloudのVertex AI Model Gardenでは非公開プレビューとして提供
- OpusとHaikuも両プラットフォームに近日追加予定
知能、速度、マルチモーダル性能
- OpusはAnthropicで最も知能の高いモデルで、MMLU、GPQA、GSM8KなどAIシステム評価ベンチマークの多くで同クラスのモデルを上回る
- Claude 3モデルは分析と予測、細かなコンテンツ生成、コード生成、スペイン語・日本語・フランス語のような非英語での対話において向上した能力を示す
- リアルタイム応答が重要な業務に合わせて活用範囲が広がる
- ライブ顧客チャット
- オートコンプリート
- データ抽出
- Haikuはその知能カテゴリで最も高速かつコスト効率の高いモデルで、チャートやグラフを含む約10kトークンのarXiv論文を3秒未満で読み取れる
- Sonnetは大半のワークロードでClaude 2およびClaude 2.1より2倍高速で、より高い知能レベルを提供
- ナレッジ検索
- セールス自動化
- OpusはClaude 2およびClaude 2.1に近い速度を維持しながら、より高い知能レベルを提供
ビジョン入力、拒否の減少、精度の改善
- Claude 3モデルは他の先行モデルと同程度のビジョン機能を備える
- 写真
- チャート
- グラフ
- 技術ダイアグラム
- 一部のエンタープライズ顧客では、ナレッジベースの最大50%がPDF、フローチャート、プレゼンテーションスライドのような形式に保存されており、新たな入力形式の重要性が大きい
- 従来のClaudeモデルは文脈理解の不足のように見える不要な拒否を頻繁に行っていたが、Claude 3のOpus、Sonnet、Haikuはシステムガードレールに近いプロンプトに対して、前世代より回答を拒否する可能性が大幅に低下
- Claude 3はリクエストをより細かく理解し、実際の害を認識して、無害なプロンプトへの拒否を減らすよう改善されている
- 精度評価では、現行モデルの既知の弱点を狙った複雑な事実質問セットを使用
- 回答は正答、誤答またはハルシネーション、不確実性の認識に分類
- OpusはClaude 2.1比で難しいオープンエンド質問の正答率が2倍に改善し、誤答水準も低下
- Claude 3モデルには近日中に引用機能が追加され、回答検証のために参考資料の正確な文を指し示せるようになる予定
長いコンテキストと想起能力
- Claude 3製品群は提供開始時点で200Kコンテキストウィンドウを提供
- 3モデルすべてが100万トークンを超える入力を受け取れ、一部の顧客にはより高い処理能力が提供される可能性がある
- 長いコンテキストのプロンプトを適切に処理するには強い想起能力が必要
- Needle In A Haystack(NIAH)評価は、膨大なデータコーパスから情報を正確に想起する能力を測定
- 評価の堅牢性を高めるため、各プロンプトで30個のランダムなneedle/questionペアのうち1つを使用
- 多様なクラウドソーシング文書コーパスでテスト
- Claude 3 OpusはNIAHで99%を超える精度により、ほぼ完璧な想起を達成
- 一部の事例では、「needle」の文が原文に人為的に挿入されたように見えると認識し、評価自体の限界を見つけることもあった
安全設計とバイアス対応
- AnthropicはClaude 3製品群を、能力と同じくらい信頼できるものにすることに注力
- 専任チームが複数のリスクを追跡・緩和
- 偽情報
- CSAM
- 生物学的悪用
- 選挙介入
- 自律複製能力
- モデルの安全性と透明性を高めるため、Constitutional AIのような手法を継続的に開発
- 新たな入力形式によって生じうるプライバシー問題を緩和するようモデルを調整
- Bias Benchmark for Question Answering(BBQ)基準で、Claude 3は従来モデルよりバイアスが少ない
- Claude 3製品群は生物学知識、サイバー関連知識、自律性の主要指標で従来モデルより進歩したが、Responsible Scaling Policyに基づくAI Safety Level 2(ASL-2) にとどまる
- レッドチーム評価は、現行モデルの破局的リスクの可能性はごく小さいと結論
- 評価はWhite House commitmentsと2023 US Executive Orderに沿って実施
- 今後のモデルがASL-3の閾値にどれほど近いかを継続的に監視する予定
- 追加の安全性詳細はClaude 3 model cardにある
使いやすさ、モデル別価格と用途
- Claude 3モデルは複雑な多段階指示によりよく従う
- ブランドボイスや応答ガイドラインを順守し、信頼できる顧客向け体験を作るのにより適している
- JSONのような構造化出力の生成能力が向上し、自然言語分類や感情分析のようなユースケースでClaudeへの指示が容易になる
-
Claude 3 Opus
- Claude 3 Opusは高度に複雑な作業で最高水準の性能を発揮する最も知能の高いモデル
- オープンなプロンプトや未知のシナリオを、高い流暢さと人間に近い理解で処理
- 価格は入力100万トークンあたり15ドル、出力100万トークンあたり75ドル
- コンテキストウィンドウは200Kで、特定のユースケースでは100万トークンも可能
- 想定ユースケース
- APIやデータベース全体にまたがる複雑な作業の計画・実行、対話型コーディング
- 研究レビュー、ブレインストーミング、仮説生成、新薬発見
- チャートやグラフ、財務、市場動向、予測に関する高度な分析
-
Claude 3 Sonnet
- Claude 3 Sonnetは知能と速度のバランスを目指し、特にエンタープライズワークロード向けに調整されている
- 同クラスのモデルより低コストで高い性能を提供し、大規模AI展開での高い持続性を目指して設計
- 価格は入力100万トークンあたり3ドル、出力100万トークンあたり15ドル
- コンテキストウィンドウは200K
- 想定ユースケース
- 膨大な知識に対するRAGまたは検索・参照
- 製品推薦、予測、ターゲットマーケティング
- コード生成、品質管理、画像からのテキスト解析
-
Claude 3 Haiku
- Claude 3 Haikuはほぼ即時の応答性に向けた、最も高速で小型のモデル
- 単純な問い合わせや要求に非常に速く応答し、人間とのやり取りを模した滑らかなAI体験の構築を目指す
- 価格は入力100万トークンあたり0.25ドル、出力100万トークンあたり1.25ドル
- コンテキストウィンドウは200K
- 想定ユースケース
- ライブインタラクションでの迅速かつ正確な顧客サポート、翻訳
- リスク行動や顧客要求を捉えるコンテンツモデレーション
- 物流最適化、在庫管理、非構造化データからの知識抽出
今後の機能とアップデート
- Anthropicはモデル知能が限界に近いとは見ておらず、今後数か月にわたってClaude 3製品群に頻繁なアップデートを投入する計画
- エンタープライズ用途と大規模展開に向けてモデル機能を強化する機能が予定されている
- ツール利用、すなわち関数呼び出し
- 対話型コーディング、すなわちREPL
- より高度なエージェント機能
- AI能力の限界を拡張すると同時に、安全ガードレールも性能向上に合わせて維持する方針
- Claudeで開発を始める入口はanthropic.com/claude
1件のコメント
Hacker News のコメント
自分の LLM コマンドラインツールに Claude 3 モデル対応を追加するプラグインを公開したばかり
pipx install llm、llm install llm-claude-3、llm keys set claudeで設定したあと、llm -m claude-3-opus '3 fun facts about pelicans'のように実行できるコード: https://github.com/simonw/llm-claude-3
LLM の説明: https://llm.datasette.io/
llm -m gpt-4に渡し、結果をosascriptのダイアログで表示するようにしたら非常に便利だった今ではどのアプリでもテキストをドラッグしてからサービスメニューの
LLMを実行でき、キーボードショートカットも付けて、ターミナルのエラー解釈や簡易検索、テキストエディタ/IDE での直接プロンプト入力に使っているhn.algolia.comAPI から記事とコメントを取得し、jqで展開したあとllm -m claude-3-opusに渡して、テーマ別の Markdown 要約と直接引用を作らせているこの 300 件以上のコメントがあるスレッドで実行した結果: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
pipやaptでインストールすればすぐ動くソフトウェアが増えるはずだが、今は人間が API キーを貼り付ける面倒な手順が残っているAPI の上限に近づいたら GPU で少量のビットコインを採掘し、追加の API 容量を自動決済すれば AI 時代らしい、という冗談も言える
Opus と以前の Claude モデルは、まだ Sally 問題を正しく解けない
「Sally には兄弟が 3 人いて、それぞれの兄弟には姉妹が 2 人いるとしたら、Sally には姉妹が何人いるか?」という質問に対し、Claude は Sally 自身を除いた姉妹はいないと結論づけ、0 人と答える
https://imgur.com/a/EawcbeL
プロンプト手法の重要性のせいで、モデルの最高性能を比較するのはかなり難しくなっており、最高性能を引き出すプロンプトのスタイルもモデルごとに異なる
たとえば Sally と 3 人の兄弟が同じ母親を共有しているが父親は違い、兄弟たちには Sally と Mary という 2 人の姉妹がいるものの、Mary と Sally は親の組み合わせが互いに異なるため姉妹ではない、という場合があり得る
博士レベルの知能だと言うが、上の問題もまともに推論できず、博士レベルの情報量と高度な推論は別物で、多くの人がその違いを区別できていないように見える
自動運転でも車線に沿って走るのは簡単だが、車線認識や物体認識は難しく、車が基本動作をしているからといって状況を実際に理解していると錯覚するのと同じように、LLM も似ているように見える
モデルが間違えることだけにこだわるのではなく、きちんとやってのける驚くべきことにも目を向けるべき
Claude 3 OpusのAPPSベンチマーク70.2% は、コーディングにかなり有用である可能性を示している
APPSは問題文をPythonコードに変換する能力を測定するもので、問題の平均長はほぼ300語
興味深いことに、他の最上位モデルはこのベンチマーク結果を公開していない
Claude 3モデルカード: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
APPSデータセット: https://huggingface.co/datasets/codeparrot/apps
APPS論文: https://arxiv.org/abs/2105.09938v3
生徒平均はそれぞれ64.4と61.5だが、Opus 3は72と63を記録した
AMC 12の参加者は米国の12年生全体300万〜400万人のうち10万人未満である可能性が高く、上位層の生徒の半分だけが参加すると仮定しても、AMC平均は米国高校生の上位2〜4%を代表している可能性がある
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
他分野の博士号取得者がインターネットを使って30分以上かけて解いても34%、同分野の博士号取得者がインターネットを使っても65〜75%の正答率だという説明
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
ChatGPT-4と比べると 桁違いに悪く 感じられ、実際の使用感は過去へ大きく後退したようだった
introductoryだけでも良い成果だが、どの基準なのか分かるとさらによい
Claude 3 の説明で、以前のモデルより不要な拒否が減ったという部分がずっと引っかかる
企業が誰にでもドラッグや爆弾の作り方を学ばせる製品を売りたくないのは理解できるが、自分のコンピューターで動かすモデルが自分の依頼を拒否すると不快だ
望む結果を得るためにモデルを説得したりだましたりしなければならないが、道具が所有者の命令を拒むというのは、人間と道具の関係に対する侮辱のように感じる
ハンマーをネジに使いたいならそれは自分の選択であって、ハンマーが決めることではないし、なぜ第三者が定義した「安全」のために AI ツールが所有者の命令を拒むようにすることにこだわるのか分からない
自分の道具を使った他人の行動が良心の負担になることを望んでいないのだ
ただ、多くの人が思想犯罪を信じ、性に対して清教徒的な信念を持っているため、これに合わせないと評判や資金調達のコストが発生する
ユーザーがモデルで犯罪を犯したなら法体系が処理すればよく、Big Brother が思想犯罪まで監視する必要はないと思う
現時点ではハンマーの比喩が概ね当てはまるように見えるかもしれないが、AI アラインメントの側では、これらのシステムはまもなく、遅くとも 10 年以内には能力が大きく向上すると見ている
道具の基本状態は道徳的に中立で、善人も悪人もより効果的にし、攻撃と防御が対称なら問題は小さいが、そうである理由はない
自動の大容量機関銃に規制があるのも、単独の悪意ある行為者の攻撃能力と防御不能性の間の非対称性が大きすぎるためで、AI による攻撃が防御よりはるかに容易になるなら、開放性を志向する理念は現実には失敗し得る
ただし、ガードレールを少数の集団が決めるのは問題であり、AI があまりに早く登場した副作用のように見える
政府からの圧力や「当社のハンマーは誤って赤ちゃんを傷つけない」という競争上のマーケティングのためであっても、そうするかもしれないし、ハンマーにそうした機能がないのは選択ではなく限界の副産物かもしれない
Photoshop が紙幣の画像を編集できないようにしているのも不快なのか? そのモデルはユーザーのものではないし、何十億ドルもかけて開発したのもユーザーではない
商用ソフトウェアがいつもそうであるように、開発者が定めた条件で使うか、まったく使わないかだ
目標市場は、さまざまな業務を自動化して数億〜数十億ドルの人件費を節約しようとする大企業であり、彼らが求めているのは正確な情報と適切なガードレールを備えた信頼性の高いモデルだ
大手多国籍保険会社が、顧客サポートのチャットボットをいたずらで誘導した顧客にエロティカを書いてしまう可能性を受け入れるはずがない
重要なユーザーは個人ではなく、感情労働を担う顧客サポート人員を置き換えようとする雇用主たちであり、彼らは制御され、親切で、ガードレールのある人間の代替物を求めている
Opus は複雑な質問で Gemini Pro と GPT-4 を圧倒した
43 ページの生命保険投資 PDFから複数の数値を見つけ出すタスクで、他のモデルはまったく及ばなかった
Claude 3 Sonnet だけが、1 つの質問を取りこぼす程度まで近かった
43 ページの PDF には理想的かもしれず、アクセス権があるので Pro 1.5 でテストできる
Claude Pro に加入して Opus を試しながら、画像と SDXL のファインチューニングに関する複雑な質問を投げ、RTX 6000 Ada と H100 のコスト比較計算をさせたところ、ミスが多かった
Runpod の GPU 価格のスクリーンショットを渡したら、RTX 6000 Ada の価格を $1.14 ではなく $0.114 と読み間違え、その後の計算でも
.278 * $0.114や.116 * $4.69が提示した合計額と一致していなかった一方 ChatGPT 4 は同じスクリーンショットから価格を正しく読み取り、RTX 6000 Ada が利用不可である点に気づいて自ら 4090 に置き換え、より一貫した計算をした
数式の項目を見つけて手製のパーサーと関数に送り、結果を出力トークンに再び差し込むような形でなければ、この問題を直す方法はなさそうだ
参考: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
まだどの LLM も創発的な計算機を持つようになったことはない
ビジョン能力が、画像入力のないタスクでも知能を高めるという意味なのか?
例えば複雑な算術式で、計算機の正解は 22.08555452004、Python なしの GPT-4 は 22.3038、Claude 3 Opus は 22.0492 を出した
その次は r/wallStreetBets ボットを好きなだけ走らせるような形だ
DBとフロントエンドが絡む簡単なコーディング作業のプロンプトを1つ試したところ、無料でより弱いモデルである Claude 3 Sonnet が ChatGPT Classic より良い答えを出した。
あまり知られていない SQL ORM ライブラリの正しいメソッドを使っており、GPT-4 は誤ったメソッドを使っていた。
ただし SQL 生成プロンプトでは ChatGPT Classic より悪い答えを出し、正しそうには見えたものの、はるかに長かった。
ChatGPT リンク 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ChatGPT リンク 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
緑色のアイコンは第1世代の ChatGPT モデルを意味し、おそらく GPT-3.5 Turbo である可能性が高い。
GPT-4 で実行すると予想どおりの結果になる: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
インターネット上にある ChatGPT の失敗例の相当数は、弱いモデルの結果だと分かる良い例。
緑背景の OpenAI アイコンは GPT-3.5、黒または紫のアイコンは GPT-4 で、API の GPT-4 Turbo は Drizzle の知識がより多いからか、少し良かった。
Opus を少し使ってみたところ、ベンチマークが実性能と体系的にずれているのではないかと疑い始めた。
実際には GPT-4 より良く見えず、むしろ少し悪く見える。
基本的な微積分/物理の質問では、減速が速度に比例すると明示したにもかかわらず一定減速だと仮定し、交通シミュレーションのテストでは以前に会話した方向の概念を忘れて、GPT-4 のすでに悪い結果よりも劣っていた。
文脈内で教えた後に基本的な光の色を理解するテストもより悪く、コーディングでは長期キャピタルゲイン税の計算問題で GPT-4 に少し後れを取った。
Claude 3 を https://double.bot の Chat に追加したので、コーディング用に試せる。
今は無料で、今日の午後にはオートコンプリートにも Claude 3 を入れる予定。
初期テストでは GPT-4 に対する最初の API 代替のように見え、大きな出来事だ。
Codeium はすでにかなり良いサポートがある。
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
同じ分野で製品を作っているが、こうした要望を何度か受けたことがあり、IDE 拡張なら、どこで動いている AI モデルであれ接続できそうに思う。
どんなモデルであれ、GPT-4 を超えることは大きな出来事であり、それを成し遂げたのは非常に印象的だ。
ただし GPT-4 は1年前のモデルで、OpenAI はまだ次世代モデルを公開していない。
GPT-3 論文は2020年に出ており、Anthropic は2021年になって設立されたので、OpenAI が3世代分の経験を積んだ状態で、Anthropic は実質的にゼロから出発し、一部のベンチマークで一時的にせよ上回ったことになる。
OpenAI の次世代モデルはすでに学習を終え、微調整と安全性評価の最中だと思うが、Anthropic の存在理由が安全性である以上、このモデルを急いで出すためにその部分をおろそかにしたとは考えにくい。
GPT-4-1106-previewとGPT-4-0125-preview。参考: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
ここで GPT-4 をごくわずかに上回っており、これまで他のモデルはそれができなかったようなので、それ自体が印象的だ。