2 ポイント 投稿者 GN⁺ 2023-11-22 | 1件のコメント | WhatsAppで共有
  • Claude 2.1はAPI経由で利用可能で、claude.aiでチャット体験を提供する。
  • 200Kトークンのコンテキストウィンドウ、モデルのハルシネーション減少、システムプロンプト、および新しいベータ機能であるツール使用が特徴。
  • 顧客のコスト効率向上のため、価格ポリシーの更新を予定。

200Kコンテキストウィンドウ

  • Claudeユーザーは、より大きなコンテキストウィンドウと、長い文書を扱う際のより正確な出力を求めている。
  • 200,000トークンにより、約150,000語または500ページを超える資料をClaudeに渡すことができる。
  • Claudeは大規模なコンテンツやデータと対話しながら、要約、Q&A、トレンド予測、複数文書の比較など、さまざまな作業を実行できる。

ハルシネーション率を2倍削減

  • Claude 2.1は誠実性向上のため、虚偽の記述が発生する率を2倍削減した。
  • 企業は、より大きな信頼と信頼性をもってAIアプリケーションを構築し、運用に展開できる。
  • Claude 2.1は理解力と要約能力が向上し、特に正確さが求められる長く複雑な文書で性能改善を示している。

API Tool Use

  • ユーザーの既存プロセス、製品、APIと統合できる新しいベータ機能「Tool Use(ツール使用)」を追加。
  • Claudeは開発者が定義した関数やAPIを調整し、Webソースを検索し、個人ナレッジベースから情報を検索できる。
  • Tool Useは初期開発段階にあり、開発者向け機能とプロンプトガイドラインを構築中。

開発者体験

  • Claude APIユーザー向けに開発者コンソール体験を簡素化し、新しいプロンプトのテストを容易にする。
  • 新しいWorkbench製品を通じて、開発者はプロンプトを反復し、Claudeの挙動を最適化するためのモデル設定にアクセスできる。
  • システムプロンプトを導入し、ユーザーがClaudeにカスタム指示を与えられるようにした。

GN⁺の意見

  • Claude 2.1の最も重要な特徴は、200Kトークンのコンテキストウィンドウとハルシネーション率の低減であり、これによりユーザーはより大きな文書やデータを処理し、より信頼できる結果を得られる。
  • これらの機能はAI技術の進歩を示しており、企業と開発者により効率的で正確なツールを提供することで、彼らの仕事を革新する可能性を持つ。
  • この記事は、AI技術の最新動向と開発者が利用できる新しいツールに関する興味深い情報を提供しており、技術に関心のある人々にとって魅力的な内容となっている。

1件のコメント

 
GN⁺ 2023-11-22
Hacker Newsの意見
  • 200kコンテキストのほろ苦さ: 70kから195kでエラー率が急増したのは残念。しかし、中間部分でのエラー減少は評価できる。
  • モデルの制限的な利用への不満: Claudeはタイトルで主張しているほど拒否が少ないわけではない。Anthropicがモデルを過度に検閲しており、使いにくい。ユーザーがツールを決めるべきであって、ツールがユーザーを決めるべきではない。
  • タイトルと内容の不一致の指摘: 発表で言及された「拒否の減少」は実際の内容と一致しない。Claude 2.1は誤った情報を提供するよりも拒否する可能性が高くなったことを示唆している。
  • コーディングに対する非効率性: GPT-4と比べて10倍ひどい。簡単なデータベース同期関数を依頼したとき、実際のコードではなく疑似コードを多く提示した。
  • モデルに対する否定的な印象: Anthropicのモデルは大半のリクエストを拒否するよう過剰に学習されており、Claudeとの会話は楽しくない。
  • イデオロギー的観点での拒否事例: 効果的利他主義者のように話すための語彙リストの依頼を拒否したことで、ユーモラスな状況が生まれた。
  • Claude 2への失望: 当初は期待していたが、GPT-4に比べてはるかに劣る性能だと判断。大きなコンテキストウィンドウがあっても、回答の質が悪ければ意味がない。
  • API利用に対するアクセシビリティの問題: APIの利用に関心はあるが、返答を得られず失望した。開発者プラットフォームとしての関心が薄い。
  • APIアクセスの難しさ: AnthropicのウェブサイトやBedrock経由の申請に対する返答がなく、ビジネスとしてAPIアクセスが不可能に見える。
  • システムプロンプト導入への関心: ユーザーがClaudeにカスタム指示を与えて性能を向上させられるシステムプロンプトの導入に注目。使いやすさと悪用しやすさの両面に期待している。
  • Claudeのテスト利用とOpenAIの選択: まだ本番投入には使っていないが、新機能をLLMと一緒に構築するときは定期的にテスト対象に含めている。OpenAIのほうがより早く認証を取得して市場投入され、APIもより優れていて信頼性が高く、安価だ。しかし、ClaudeがAWS Bedrockに含まれたことで、以前は不可能だったことが可能になった。