12 ポイント 投稿者 xguru 2024-10-03 | まだコメントはありません。 | WhatsAppで共有

主な発表

  • ChatGPTの高度な音声モードに似た機能を実装できるようにするRealtime API
  • o1モデルのRate LimitをGPT-4oと同じ水準まで引き上げ(1分あたり1万回)
  • 自動プロンプトキャッシュによりGPT-4o APIの価格を引き下げ。繰り返しの呼び出しについては追加開発なしで50%安価
  • マルチモーダル・ファインチューニングAPI
  • 昨年から今年にかけてOpenAIプラットフォーム上で活動中のアプリ数は3倍に増加し、活動中の開発者数は300万人に達する

o1モデルの概要

  • OpenAIは新しい推論モデルであるo1をリリースした
  • o1は既存のGPT-4oとは異なる新しいモデル群に分類される
  • OpenAIは、さまざまなユースケースに合った複数のモデルを開発することが今後の方向性になると見ている
  • o1は思考の連鎖のように考えられる能力に優れており、プログラミング作業に適しているが、速度が遅くコストも高い
  • ほとんどのプロンプトはo1の高度な推論能力を必要としないため、o1が基本モデルになることはない
  • OpenAIの開発者リレーション責任者であるRomain Huetは、o1を使って単一のプロンプトで30秒のうちにiPhoneアプリを最初から最後まで作るデモを披露した
  • また、ステージにドローンを持ち込み、Webアプリを作成して観客の前でドローンを操縦するデモも見せた
  • 以前のGPTモデルでもこうしたデモは可能だっただろうが、o1を使えばはるかに速く作れる
  • o1は、アイデアからアプリまでを1〜2分で作れる未来を示している

音声対話型リアルタイムAPI

  • OpenAIが発表した最も印象的な機能はRealtime APIで、開発者が自分のアプリにChatGPTの高度な音声モードに似た機能を実装できるようにする
  • 開発者は録音した音声をOpenAIのサーバーに送信し、録音された応答、文字起こし、関数呼び出しをリアルタイムで受け取れる
  • Realtime APIは本日から公開ベータとして提供され、今後は動画のようなより多くのモダリティにも対応する予定
  • Realtime APIは音声入力が1分あたり0.06ドル、音声出力が0.24ドルで、合計コストは0.15ドル(音声の入出力が同量だと仮定)
  • これは1分あたり約0.11ドルのElevenLabsの音声対音声サービスより高価だが、利用量に応じて支払う方式ではなく、毎月一定量の時間を購入する必要がある
  • リアルタイム音声は、より良い読書支援や、より没入感のある語学学習など、多くの新しいユースケースを切り開く

ファインチューニングツール

  • OpenAIは、1つの大きなモデルを使うより複数のモデルを使う方がよいという考え方を真剣に受け止めている
  • 企業が自社のユースケースに合わせてGPT-4oのカスタム版を作れるよう支援する
  • OpenAIは、すべての企業が自社データにアクセスできる微調整済みモデルを持つ未来を描いている

画像ファインチューニングAPI

  • 誰でも自分の画像データを使ってGPT-4oをファインチューニングできる
  • たとえば医療分野で働いていて、GPT-4oのMRI読影やラベル付けの能力を微調整したいなら、このAPIを利用できる

モデル蒸留ツール

  • OpenAIは、特定のユースケース向けに構築された、より小さく高速で低コストなファウンデーションモデルの派生版を作るプロセスであるモデル蒸留を、よりうまく行えるようにする2つのツールを発表した
  • 開発者Playgroundに、以前のAPIインタラクションを記録し、それをファインチューニング用データとして使える機能を追加して、蒸留を容易にした
  • さらに、開発者がファインチューニング済みモデルの性能を評価できるよう、PlaygroundにEvalsツールも追加した

プロンプトキャッシュで繰り返しAPI呼び出しコストを50%削減

  • OpenAIは、繰り返されるAPI呼び出しを検知し、以前に生成された応答を返す新しいプロンプトキャッシュ機能を公開した
  • この機能は本日から自動で動作し、開発者は追加作業なしで多くのAPI呼び出しコストを50%削減できる
  • この機能は、OpenAIがAPI利用コストをますます低くしようと競争している流れの延長線上にある
  • 開発者にとっては良い知らせだが、OpenAI最大のパートナーであるMicrosoftとは興味深い力学を生み出す
  • Microsoftは大企業に対し、容量を保証してもらうためにGPT-4 API呼び出しを一定額以上事前購入するよう圧力をかけてきた
  • すでに購入コミットメントを結んでいるMicrosoftと顧客が、こうした値下げをどう受け止めるのか気になる

OpenAIの戦略

1. さまざまなユースケースに合った複数モデルの開発に注力

  • OpenAIは、1つのモデルですべてを処理するより、複数のモデルを組み合わせて使うほうが最も効果的なアプリケーションになると考えている
  • 開発者は、o1のように推論に強いモデルと、GPT-4oのように長いコンテキストや画像プロンプト処理に強いモデルを組み合わせ、ユーザーに一貫した体験を提供できる

2. o1は自律的に作業できるエージェントへの重要なステップ

  • エージェントは長い間、最も魅力的なAIアプリケーションの1つだったが、以前のGPTモデルは作業を自力で解決しようとすると、うまく動かない可能性が高かった
  • o1は、自身の思考プロセスを振り返り、次のステップを計画できる能力のおかげで、本当に自律的なエージェントを作るうえで重要な役割を果たすと期待されている

3. 開発者がユーザーのために驚くような体験を作れる技術が非常に増えた

  • ほんの数年前までは、今日デモされたもののどれもが不可能だったか、関心の外にあったことを忘れがちだ
  • 今日では、余暇にアプリを作る個人開発者でさえ、以前なら開発チーム全体でもできなかったことを成し遂げられる

まだコメントはありません。

まだコメントはありません。