OpenAIがDevDayで発表したこと一覧

xguru · 2024-10-03T10:20:02+09:00

主な発表 ChatGPTの高度な音声モードに似た機能を実装できるようにするRealtime API o1モデルのRate LimitをGPT-4oと同じ水準まで引き上げ（1分あたり1万回）自動プロンプトキャッシュによりGPT-4o APIの価格を引き下げ。繰り返しの呼び出しについては追加開発なしで50%安価マルチモーダル・ファインチューニングAPI 昨年から今年にかけてOpenAIプラットフォーム上で活動中のアプリ数は3倍に増加し、活動中の開発者数は300万人に達する o1モデルの概要 OpenAIは新しい推論モデルであるo1をリリースした o1は既存のGPT-4oとは異なる新しいモデル群に分類される OpenAIは、さまざまなユースケースに合った複数のモデルを開発することが今後の方向性になると見ている o1は思考の連鎖のように考えられる能力に優れており、プログラミング作業に適しているが、速度が遅くコストも高いほとんどのプロンプトはo1の高度な推論能力を必要としないため、o1が基本モデルになることはない OpenAIの開発者リレーション責任者であるRomain Huetは、o1を使って単一のプロンプトで30秒のうちにiPhoneアプリを最初から最後まで作るデモを披露したまた、ステージにドローンを持ち込み、Webアプリを作成して観客の前でドローンを操縦するデモも見せた以前のGPTモデルでもこうしたデモは可能だっただろうが、o1を使えばはるかに速く作れる o1は、アイデアからアプリまでを1〜2分で作れる未来を示している音声対話型リアルタイムAPI OpenAIが発表した最も印象的な機能はRealtime APIで、開発者が自分のアプリにChatGPTの高度な音声モードに似た機能を実装できるようにする開発者は録音した音声をOpenAIのサーバーに送信し、録音された応答、文字起こし、関数呼び出しをリアルタイムで受け取れる Realtime APIは本日から公開ベータとして提供され、今後は動画のようなより多くのモダリティにも対応する予定 Realtime APIは音声入力が1分あたり0.06ドル、音声出力が0.24ドルで、合計コストは0.15ドル（音声の入出力が同量だと仮定）これは1分あたり約0.11ドルのElevenLabsの音声対音声サービスより高価だが、利用量に応じて支払う方式ではなく、毎月一定量の時間を購入する必要があるリアルタイム音声は、より良い読書支援や、より没入感のある語学学習など、多くの新しいユースケースを切り開くファインチューニングツール OpenAIは、1つの大きなモデルを使うより複数のモデルを使う方がよいという考え方を真剣に受け止めている企業が自社のユースケースに合わせてGPT-4oのカスタム版を作れるよう支援する OpenAIは、すべての企業が自社データにアクセスできる微調整済みモデルを持つ未来を描いている画像ファインチューニングAPI 誰でも自分の画像データを使ってGPT-4oをファインチューニングできるたとえば医療分野で働いていて、GPT-4oのMRI読影やラベル付けの能力を微調整したいなら、このAPIを利用できるモデル蒸留ツール OpenAIは、特定のユースケース向けに構築された、より小さく高速で低コストなファウンデーションモデルの派生版を作るプロセスであるモデル蒸留を、よりうまく行えるようにする2つのツールを発表した開発者Playgroundに、以前のAPIインタラクションを記録し、それをファインチューニング用データとして使える機能を追加して、蒸留を容易にしたさらに、開発者がファインチューニング済みモデルの性能を評価できるよう、PlaygroundにEvalsツールも追加したプロンプトキャッシュで繰り返しAPI呼び出しコストを50%削減 OpenAIは、繰り返されるAPI呼び出しを検知し、以前に生成された応答を返す新しいプロンプトキャッシュ機能を公開したこの機能は本日から自動で動作し、開発者は追加作業なしで多くのAPI呼び出しコストを50%削減できるこの機能は、OpenAIがAPI利用コストをますます低くしようと競争している流れの延長線上にある開発者にとっては良い知らせだが、OpenAI最大のパートナーであるMicrosoftとは興味深い力学を生み出す Microsoftは大企業に対し、容量を保証してもらうためにGPT-4 API呼び出しを一定額以上事前購入するよう圧力をかけてきたすでに購入コミットメントを結んでいるMicrosoftと顧客が、こうした値下げをどう受け止めるのか気になる OpenAIの戦略 1. さまざまなユースケースに合った複数モデルの開発に注力 OpenAIは、1つのモデルですべてを処理するより、複数のモデルを組み合わせて使うほうが最も効果的なアプリケーションになると考えている開発者は、o1のように推論に強いモデルと、GPT-4oのように長いコンテキストや画像プロンプト処理に強いモデルを組み合わせ、ユーザーに一貫した体験を提供できる 2. o1は自律的に作業できるエージェントへの重要なステップエージェントは長い間、最も魅力的なAIアプリケーションの1つだったが、以前のGPTモデルは作業を自力で解決しようとすると、うまく動かない可能性が高かった o1は、自身の思考プロセスを振り返り、次のステップを計画できる能力のおかげで、本当に自律的なエージェントを作るうえで重要な役割を果たすと期待されている 3. 開発者がユーザーのために驚くような体験を作れる技術が非常に増えたほんの数年前までは、今日デモされたもののどれもが不可能だったか、関心の外にあったことを忘れがちだ今日では、余暇にアプリを作る個人開発者でさえ、以前なら開発チーム全体でもできなかったことを成し遂げられる

(every.to)

12 ポイント投稿者 xguru 2024-10-03 | まだコメントはありません。 | WhatsAppで共有

主な発表

ChatGPTの高度な音声モードに似た機能を実装できるようにするRealtime API
o1モデルのRate LimitをGPT-4oと同じ水準まで引き上げ（1分あたり1万回）
自動プロンプトキャッシュによりGPT-4o APIの価格を引き下げ。繰り返しの呼び出しについては追加開発なしで50%安価
マルチモーダル・ファインチューニングAPI
昨年から今年にかけてOpenAIプラットフォーム上で活動中のアプリ数は3倍に増加し、活動中の開発者数は300万人に達する

o1モデルの概要

OpenAIは新しい推論モデルであるo1をリリースした
o1は既存のGPT-4oとは異なる新しいモデル群に分類される
OpenAIは、さまざまなユースケースに合った複数のモデルを開発することが今後の方向性になると見ている
o1は思考の連鎖のように考えられる能力に優れており、プログラミング作業に適しているが、速度が遅くコストも高い
ほとんどのプロンプトはo1の高度な推論能力を必要としないため、o1が基本モデルになることはない
OpenAIの開発者リレーション責任者であるRomain Huetは、o1を使って単一のプロンプトで30秒のうちにiPhoneアプリを最初から最後まで作るデモを披露した
また、ステージにドローンを持ち込み、Webアプリを作成して観客の前でドローンを操縦するデモも見せた
以前のGPTモデルでもこうしたデモは可能だっただろうが、o1を使えばはるかに速く作れる
o1は、アイデアからアプリまでを1〜2分で作れる未来を示している

音声対話型リアルタイムAPI

OpenAIが発表した最も印象的な機能はRealtime APIで、開発者が自分のアプリにChatGPTの高度な音声モードに似た機能を実装できるようにする
開発者は録音した音声をOpenAIのサーバーに送信し、録音された応答、文字起こし、関数呼び出しをリアルタイムで受け取れる
Realtime APIは本日から公開ベータとして提供され、今後は動画のようなより多くのモダリティにも対応する予定
Realtime APIは音声入力が1分あたり0.06ドル、音声出力が0.24ドルで、合計コストは0.15ドル（音声の入出力が同量だと仮定）
これは1分あたり約0.11ドルのElevenLabsの音声対音声サービスより高価だが、利用量に応じて支払う方式ではなく、毎月一定量の時間を購入する必要がある
リアルタイム音声は、より良い読書支援や、より没入感のある語学学習など、多くの新しいユースケースを切り開く

ファインチューニングツール

OpenAIは、1つの大きなモデルを使うより複数のモデルを使う方がよいという考え方を真剣に受け止めている
企業が自社のユースケースに合わせてGPT-4oのカスタム版を作れるよう支援する
OpenAIは、すべての企業が自社データにアクセスできる微調整済みモデルを持つ未来を描いている

画像ファインチューニングAPI

誰でも自分の画像データを使ってGPT-4oをファインチューニングできる
たとえば医療分野で働いていて、GPT-4oのMRI読影やラベル付けの能力を微調整したいなら、このAPIを利用できる

モデル蒸留ツール

OpenAIは、特定のユースケース向けに構築された、より小さく高速で低コストなファウンデーションモデルの派生版を作るプロセスであるモデル蒸留を、よりうまく行えるようにする2つのツールを発表した
開発者Playgroundに、以前のAPIインタラクションを記録し、それをファインチューニング用データとして使える機能を追加して、蒸留を容易にした
さらに、開発者がファインチューニング済みモデルの性能を評価できるよう、PlaygroundにEvalsツールも追加した

プロンプトキャッシュで繰り返しAPI呼び出しコストを50%削減

OpenAIは、繰り返されるAPI呼び出しを検知し、以前に生成された応答を返す新しいプロンプトキャッシュ機能を公開した
この機能は本日から自動で動作し、開発者は追加作業なしで多くのAPI呼び出しコストを50%削減できる
この機能は、OpenAIがAPI利用コストをますます低くしようと競争している流れの延長線上にある
開発者にとっては良い知らせだが、OpenAI最大のパートナーであるMicrosoftとは興味深い力学を生み出す
Microsoftは大企業に対し、容量を保証してもらうためにGPT-4 API呼び出しを一定額以上事前購入するよう圧力をかけてきた
すでに購入コミットメントを結んでいるMicrosoftと顧客が、こうした値下げをどう受け止めるのか気になる

OpenAIの戦略

1. さまざまなユースケースに合った複数モデルの開発に注力

OpenAIは、1つのモデルですべてを処理するより、複数のモデルを組み合わせて使うほうが最も効果的なアプリケーションになると考えている
開発者は、o1のように推論に強いモデルと、GPT-4oのように長いコンテキストや画像プロンプト処理に強いモデルを組み合わせ、ユーザーに一貫した体験を提供できる

2. o1は自律的に作業できるエージェントへの重要なステップ

エージェントは長い間、最も魅力的なAIアプリケーションの1つだったが、以前のGPTモデルは作業を自力で解決しようとすると、うまく動かない可能性が高かった
o1は、自身の思考プロセスを振り返り、次のステップを計画できる能力のおかげで、本当に自律的なエージェントを作るうえで重要な役割を果たすと期待されている

3. 開発者がユーザーのために驚くような体験を作れる技術が非常に増えた

ほんの数年前までは、今日デモされたもののどれもが不可能だったか、関心の外にあったことを忘れがちだ
今日では、余暇にアプリを作る個人開発者でさえ、以前なら開発チーム全体でもできなかったことを成し遂げられる