iPhone・iPad・MacのためのApple Intelligence
(apple.com)- Appleは、生成モデルと個人の文脈を組み合わせたApple Intelligenceを発表し、言語・画像生成とアプリ間のタスク実行をiPhone、iPad、Macの標準体験に取り込む
- iOS 18、iPadOS 18、macOS Sequoiaには、Writing Tools、Mailの優先表示・要約、通知の要約、Notes・Phoneの音声録音・文字起こし・要約機能が統合される
- 画像分野はImage Playground、Genmoji、Photosの検索・Clean Up・Memoriesへと拡張され、Apple製アプリおよびAPIを採用したサードパーティ製アプリで利用できる
- Siriは、テキスト入力、画面認識、アプリ内外での数百種類の操作、デバイスの使い方への回答、オンデバイス情報に基づくリクエスト処理まで担うよう拡張される
- プライバシー保護はオンデバイス処理とPrivate Cloud Computeが中心で、ChatGPTはユーザーの許可後にSiriとWriting ToolsからGPT-4oベースで連携し、ベータ版は今秋に米国英語で提供される
Apple Intelligenceの基本構造
- Apple Intelligenceは、iPhone、iPad、Macのためのパーソナルインテリジェンスシステムであり、生成モデルの能力とユーザーの個人的な文脈を組み合わせる
- iOS 18、iPadOS 18、macOS Sequoiaに深く統合され、Apple siliconを活用して次の作業を行う
- 言語と画像の理解および生成
- アプリ間のタスク実行
- 個人の文脈をもとに日常作業を簡素化し高速化
- より複雑なリクエストは、Private Cloud Computeを通じて、オンデバイス処理とApple siliconサーバー上のモデルの間で必要な計算能力を調整する
言語理解と作文ツール
- システム全体に組み込まれるWriting Toolsは、iOS 18、iPadOS 18、macOS SequoiaでMail、Notes、Pages、サードパーティ製アプリなど、ほぼあらゆる入力箇所に適用される
- 作文支援機能は、文章の目的や形式に合わせて下書きを整えることに重点を置いている
- Rewrite: 書いた文章の複数バージョンを提案し、相手や作業に合わせてトーンを調整する
- Proofread: 文法、語句の選択、文の構造を確認し、修正提案と説明を提供する
- Summarize: 選択したテキストを段落、重要な箇条書き、表、リスト形式で要約する
- Mailには、受信トレイ上部に緊急性の高いメールを表示するPriority Messagesが追加される
- メールを開かなくても要約を確認できる
- 長いスレッドはタップ1回で関連する詳細を確認できる
- Smart Replyはすばやい返信候補を提案し、メール内の質問を特定して漏れなく回答できるよう支援する
- 通知にはPriority Notificationsと要約機能が適用され、ロック画面で判断すべき情報を減らしてくれる
- 重要な通知をスタックの最上部に表示する
- 長い通知や溜まった通知の要点をロック画面に表示する
- 新しいFocusであるReduce Interruptionsは、即時の注意が必要な可能性のある通知のみを表示する
- NotesとPhoneアプリでは、音声を録音・文字起こし・要約できる
- 通話中に録音を開始すると、参加者に自動で通知される
- 通話が終わると、Apple Intelligenceが要点を要約する
画像生成と表現機能
- Image Playgroundは、ユーザーが数秒で画像を作成できる機能で、Animation、Illustration、Sketchの3つのスタイルを提供する
- Messagesのようなアプリ内でそのまま使え、単独アプリとしても提供される
- すべての画像はオンデバイスで生成される
- テーマ、服装、アクセサリー、場所といったカテゴリのコンセプトを選べる
- 説明を入力して画像を定義できる
- 個人の写真ライブラリ内の人物を画像に含められる
- Messagesでは、会話に関連したパーソナライズされたおすすめコンセプトが表示される
- たとえばハイキングを計画しているグループチャットでは、友人、目的地、活動に関連するコンセプトが提案される
- Notesでは、Apple PencilツールパレットのImage WandでImage Playgroundを利用できる
- 大まかなスケッチを画像に変換できる
- 空白スペースを選ぶと、周囲の文脈を使って画像を生成できる
- Image PlaygroundはKeynote、Freeform、Pagesでも提供され、新しいImage Playground APIを採用したサードパーティ製アプリでも利用できる
GenmojiとPhotos機能
- Genmojiは、説明を入力して新しい絵文字風の画像を作る機能
- 説明を入力すると、Genmojiと追加オプションが表示される
- 写真をもとに友人や家族のGenmojiを作成できる
- メッセージ内にインラインで追加したり、ステッカーやTapbackリアクションとして共有できる
- Photos検索は自然言語に対応し、具体的な場面をより直接的に見つけられる
- “Maya skateboarding in a tie-dye shirt”のような具体的な写真検索が可能
- 動画検索では、クリップ内の特定の瞬間を見つけて関連箇所へ直接移動できる
- 新しいClean Upツールは、写真背景の不要な要素を特定して削除する
- 被写体を誤って変えてしまわないよう設計されている
- Memoriesでは、ユーザーが説明を入力すると、Apple Intelligenceが写真と動画を選び、テーマ別チャプターのあるストーリーラインを構成してムービーとして並べる
- Apple Musicから、その思い出に合った楽曲提案も行う
- ユーザーの写真と動画はデバイス上で非公開のまま保持され、Appleや他者と共有されない
Siriの変化
- SiriはApple Intelligenceを基盤として、システム体験により深く統合される
- 言語理解能力が強化され、ユーザーが言いよどんでも追従し、リクエスト間の文脈を維持できる
- ユーザーはSiriにタイプ入力でき、状況に応じてテキストと音声を切り替えられる
- Siriが有効になると、画面の端を包み込む新しい光のエフェクトデザインが表示される
- iPhone、iPad、Macの使い方に関する数千件の質問にも答えられる
- Mailアプリでメールを予約送信する
- Light ModeからDark Modeに切り替えるといった質問に対応する
- 画面認識により、現在の画面の情報と結びついた操作を実行できる
- Messagesで受け取った新しい住所を連絡先カードに追加できる
- Apple製アプリおよびサードパーティ製アプリの内外で、数百種類の新しい操作を実行する
- Reading Listの特定の記事を呼び出す
- 土曜日のバーベキュー写真を特定の相手に送るといった依頼に対応する
- ユーザーのオンデバイス情報をもとに、パーソナライズされたリクエストにも対応する
- おすすめされたポッドキャストをメッセージで見たのかメールで見たのか覚えていなくても、見つけて再生する
- フライト情報を見つけ、リアルタイムのフライト追跡と照合して到着時刻を知らせる
プライバシー保護とPrivate Cloud Compute
- Apple Intelligenceは、個人の文脈を理解しつつもユーザーのプライバシーを守る構造を前提としている
- 多くのモデルはオンデバイスで完全に実行される
- より高い処理能力が必要な複雑なリクエストにはPrivate Cloud Computeが使われる
- Apple siliconベースのサーバーで、より大規模なサーバーモデルを実行する
- データが保存または露出しないよう設計されている
- 独立した専門家がApple siliconサーバー上で実行されるコードを検査し、プライバシー保護を検証できる
- Private Cloud Computeは、iPhone、iPad、Macが公開記録され検査可能なソフトウェアを実行するサーバーとのみ通信することを暗号技術で保証する
ChatGPT統合
- AppleはChatGPTへのアクセスをiOS 18、iPadOS 18、macOS Sequoiaの体験内に統合する
- ユーザーは別のツールへ移動することなく、ChatGPTの専門知識、画像理解、文書理解機能を利用できる
- Siriは、役立つ場合にChatGPTを活用できる
- 質問、文書、写真をChatGPTへ送る前に、ユーザーに許可を求める
- 許可後、Siriが回答を直接表示する
- ChatGPTはシステム全体のWriting Toolsでも提供される
- Composeを通じて、作成中のコンテンツを生成できる
- ChatGPTの画像ツールでさまざまなスタイルの画像を生成し、文章を補強できる
- ChatGPT利用時にはプライバシー保護措置が含まれる
- IPアドレスは隠される
- OpenAIはリクエストを保存しない
- ユーザーがアカウントを連携すると、ChatGPTのデータ利用ポリシーが適用される
- ChatGPT統合は今年後半にiOS 18、iPadOS 18、macOS Sequoiaへ提供され、GPT-4oベースとなる
- アカウント作成なしで無料で利用可能
- ChatGPTのサブスクライバーはアカウントを連携して有料機能を利用できる
提供時期と対応デバイス
- Apple Intelligenceはユーザーに無料で提供される
- 今秋、iOS 18、iPadOS 18、macOS Sequoiaのベータ版として提供され、初期対応言語は米国英語
- 一部機能、ソフトウェアプラットフォーム、追加言語は翌年にかけて提供される
- 対応デバイスは以下の通り
- iPhone 15 Pro
- iPhone 15 Pro Max
- M1以降のチップを搭載したiPadおよびMac
- Siriとデバイス言語が米国英語に設定されている必要がある
- 詳細はapple.com/apple-intelligenceで案内されている
1件のコメント
Hacker News の意見
今日 Apple が披露した パーソナル AI 機能は本当に印象的だった
コンシューマー向け AI の本当の力は、メッセージ、メール、写真、アプリといったデジタル生活の大部分をすでに握っているプラットフォーム所有者、つまり Apple や Google、仕事/生活の領域では Microsoft にあることを示している
Siri がメールやメッセージの文脈をもとに、カレンダー、予約、フライト確認のような作業をしてくれる方式は本当に便利そうだ。パーソナルな知能機能はいずれ来ると思っていたが、Apple がここまで強く打ち出してくるとは思わなかったし、エコシステムに人々を引き込んできた効果は大きい
プライベートクラウド、ChatGPT 統合、画像生成プレイグラウンド、Genmoji まで考慮している点も良かったし、Craig が言った「私たち全員のため」の機能になり得るように見える。ただ、実在人物の画像生成はあまりにも 不気味の谷 に近く、ああいう冷たく手抜きに見える誕生日祝いの画像を受け取っても、うれしくはなさそうだ
AI への収束は、これまでの技術変化よりも組織的な欠陥をはるかに露骨にさらけ出すと思う。Gmail でしか使えない生成 AI や、Messages でしか使えない別の AI など誰も望んでおらず、テキストを書くあらゆる場所で動作するプラットフォーム機能を望んでいる
現在の Google や Microsoft が組織としてそうしたものを提供できるのかは、正直よく分からない
プライベートコンピューティングも非常に重要に見える。重い処理をクラウドサーバーで行うという obvious な用途以外にも、個人用コードインタープリタ、つまり iOS で本格的なスクリプティングが可能になり、長期的には iPadOS で開発を認める道になり得る
Apple がサーバーにも自社チップを使う点も重要だ。「十分か」ではなく、開発者側とハードウェア側で NVIDIA レベル に引き上げるために何をするのか、というのが正しい問いだ
人々は Apple が最先端モデル競争に参入すべきかどうかばかり見ていて、この大きな構図をまだ理解していないようだ。Nadella が Apple と OpenAI の提携を懸念していたという見出しが、今なら理解できる
最も重要な問いは信頼性だ。毎回きちんと動くのか、それとも内容を大きく誤解して、信じて任せたユーザーを困った立場に追い込む可能性があるのかが核心だ
https://www.theguardian.com/us-news/2024/apr/16/house-fisa-g...
検索と Siri の改善を除けば、Apple がここで提案した生成機能がどれほど有用なのかはよく分からない
誰かの誕生日のために1時間かけて絵を描いて送ると、受け取る側が感じる価値のかなりの部分は、絵の品質ではなく、それだけの労力をかけ、時間を使って、その人だけのために作った 固有の成果物 である点にある。自分で作ったものを使うときと、買ったものを使うときの満足感の違いにも似ている
Tania が数秒で作った AI 画像は最初は面白いかもしれないが、すぐに会話画面を埋めるスパムになり、何も付け加えられないように思う。子どもに、その子自身が主人公の寝る前の物語を直接作ってあげることも同じだ
何でも手に入る世界では、すべての価値が 0 になる
昨日ブリトーを買いに車を運転している間、物語全体の導入部を含む詳しい要点を gpt-4o に口述し、その文脈をもとに新しい冒険を聞かせてほしいと頼んだところ、見事にやってくれた。ミラー越しに子どもの反応を見ることができたし、私たちがすでに積み上げてきたものを損なうこともなかった。むしろ自分で語るときに使える新しいアイデアをくれた
生成 AI に自分なりの個人的・創造的な貢献なしに頼ると面白い結果は出ないだろうが、作り続け、積み上げてきたものの上に生成 AI を載せれば、非常に優れた結果が出ることがある
そういう意味で生成 AI は、ピアノやオルガンだけを使っていたところに シンセサイザー をもう一つ得たようなもので、練習するほど上手に使えるようになる、もう一つの道具に見える
今でも手書きのカードを送るのを妨げるものはないし、もちろんよりありがたく受け取られるが、人々はテキストメッセージにも感謝する。離れて暮らしていたり、それほど深い関係ではなかったりする場合は特にそうだろう
贈り物そのものが簡単になるほど、文脈がより重要になるだろう
AI スパム、とりわけカスタム絵文字やステッカーが再利用されるのか、それとも 使い捨てプラスチック のようにばらまかれるのかは興味深い
デモは、ChatGPT が登場する前に想像していた AI の姿のようだった。パーソナライズされ、文脈を理解し、システム全体に深く統合されたインタラクション方式だった
サーバーが必要な AI タスクを処理しつつも、リクエストをできるだけプライベートに保とうとする説明も良かった。Apple ハードウェア上で動き、監査可能なサーバーソフトウェアなら、そうした用途にはほぼ最善だろうし、オープンソースならさらに良い
母が送ったメールの内容をもとに、Siri が「母」についての文脈を理解するデモは、AI の世界で私たちがまさに想像していたような場面だった。モデル自体の純粋な AI 能力はいずれ汎用化される可能性が高く、これから重要になるのは、そのモデルを活用するハードウェアとシステム全体の統合だと思う
実際に公開された後の体験は別として、ビジョンだけでも印象的で、Apple は改めてユーザー体験を理解している。この発表の含意は見た目よりはるかに大きいかもしれず、特に高齢者にとってコンピューティングをより簡単にしてくれる可能性に期待している
AI が「あらゆることをできる」というデモは見栄え良く作りやすいが、現実で頻繁に破綻すれば、結局は現在の Siri になってしまう。12年前のこの広告を思い出すべきだ: https://www.youtube.com/watch?v=sw1iwC7Zh24
当時約束していたことの中には、今でも Siri に安心して任せるのが難しいものが多い
Apple は AI 機能に対して、目的別のグラフィカルインターフェイスをかなりうまく提供しており、今後さらに深まっていく過程を見るのは興味深そうだ
自分の生活を理解してほしいと思うようになり、イベントやさまざまな質問に答えられるようにするには、すべてのデバイスが自分の文脈を作れる必要があるため、「Siri に自分が見ている番組も分からせるには、Chromecast ではなく Apple TV を買うべきなのか」といった考えにつながり得る
iPhone の価格は上がり続けており、このエコシステムに深く入り込んだ後の高性能計算は、実質的に搾取のように感じられるかもしれない。Apple の世界を離れることがほぼ不可能になるからだ
競合他社もこれほど統合されたシステムを持っていないため、すべてを同じレベルで統合するのは難しいだろう
ブランディングの観点では完璧だ。会社名の文字のように「小さく見える」ものが、数十年後に大きな影響を及ぼし得る
AI == Apple Intelligenceとして持っていけるし、最後の「AI for the rest of us」はこの瞬間をうまく捉えており、Apple がどこへ向かうのかを示唆しているように思える
Apple は、よりカジュアルなユーザーが創造的だったり面白い画像、絵文字、テキスト作業、生活の質の向上のために使う、巨大な規模を扱う専門性を蓄積していくことになりそうだ。新しい AI 技術の最前線に立ってユーザー機能へ即座に統合するわけではないとしても、この独特の規模を支えるには、同じ技術の最前線に近づく必要がある
今回の WWDC は印象的で、Mac Studio、Mac Pro、M3 Ultra、M4 Ultra、M3/M4 Extreme のニュースがなかった点は気になった。自社の M2 Ultra などをクラウド計算容量に使うのだろうと予想していたが、実際に言及されていて興味深く、この方面の詳細がさらに出てくるのか気になる
一方では「これは自分たちのものだ」と言っているように見えるが、他方では自社の制御外にあるブランドを載せることになる。人々が ApI と略して呼ばないことを願う。そうなると API の検索結果が汚染されるからだ
実際に動くところを見るまでは懐疑的だ
一方で Apple はプライバシー保護とオンデバイス処理で良い実績があるが、今回の発表には曖昧な部分が多すぎた。どの基準でクラウド上で実行されるのか、個人モデルが複数のデバイスでどのように使われるのか、それが一時的にクラウドへ移動するという意味なのか、ゲストモードではどう変わるのかが明確ではない
「OpenAI はリクエストを保存しない」という表現でさえ、意図的に不透明に感じる。複数の Apple デバイスを一緒に使ってリクエストを処理する連合学習のようなアプローチを期待していたが、結局はオッカムの剃刀が勝ったようなので、見守りたい
ベータ版で Apple の言葉が実際にどう実装されるかを見ることになるだろうが、私はベータ版には近づかないつもりだ。少し残念ではあるものの、今のところ曖昧さは Apple に有利に働いている。過大に約束して過少に提供するより、控えめに約束してそれ以上を提供するほうが良い
理解が正しければ、3つある:1) デバイス内AI、2) Appleのサーバーを使うAI、3) ChatGPT/OpenAIのサービス、または今後の別サービスを使うAI
1番は追加の処理能力が必要だと判断すると2番に移り、3番は明示的なユーザー許可がある場合にだけ呼び出される構造に見える
下で指摘したように、ほかのプロバイダーも後から追加される予定
シンプルな標準APIを備えたあらゆるサーバーに対応して、自分でホストしたLlama 3や、今後6〜12か月以内に出てくる何かを動かせるといい
スポーツの記録や情報、映画とその情報のようなものを調べたいときに使う感じに見える
私の知る限り、1番は政府が個人データを要求したり、Appleの広告モデルがパーソナライズのためにセンシティブな詳細情報を必要としたりすると、2番に移る可能性もある
別のスレッドでも言ったが、画像生成が入ったこと自体と、それがあれほど多くの注目を集めたことがかなり気になる
重要な情報を出典確認なしに信じるようになると、たとえば航空便のような場合には悪い状況につながりかねず、信頼性が心配だ
それでも機能の完成度と実際の有用性は興味深い。最も派手ではないかもしれないが、見せられたものは実際に役立つものだ。Siriが有用だと判断したときに毎回ChatGPTが選択肢になる点も良い
最大の疑問は、オンライン構成要素をオフにできるのか、そしてローカルで処理できない場合に何が起きるのかだ。サーバーが同じチップを使うという説明を見ると、モデルがローカルで動かないのか、それとも文脈の問題なのかも気になる
機能全体単位なのか、一部のリクエスト単位なのかもよく見えず、時間が経つにつれてハードウェアごとにローカル処理とクラウド処理のレベルが変わるという意味かもしれない
抜けているものがある。実写スタイルがない
良い選択に見える。あらゆるものをさらにミームや絵文字に寄せて漫画化するのはあまり好みではないが、少なくとも明らかに作り物であり、「楽しさ」の方向を目指している。子どもたちも気に入るだろうし、大人も気に入るかもしれない
それでも人々が非常に不適切なものを作れるので論争はあるだろうが、危険度は下がる
そのため答えが正しいかを素早く確認できる。意味ベースの検索に近いが、結果をより柔軟なテキストで説明する方式だ
Appleは必要に迫られてサーバーを暫定策として追加したが、理想的な状態は、自社が販売するすべてのデバイスが十分な期間、すべてをローカルで実行できるようになり、サーバーを止める時点だろう
これは永遠に来ない可能性もある。大規模言語モデルは、リソースが豊富な言語から離れるほど急速に破綻する
これは本当に素晴らしく見える
モデルはApple Siliconベースのprivate cloud computeへ拡張でき、ユーザーのデバイスが「publicly verifiable software」の実行を確認してデータの悪用を防ぐと言っていた
サーバー側コードがオープンソースになるのか気になる。そうなら良い意味で驚きだ。今後どう発展するのか気になる
宣伝どおりに動くなら、まさに「黙って俺の金を持っていけ」になりそうだ。Siriはついに本来あるべき姿になるようで、Shortcuts Actionsのカタログの上に載せて、初期段階から可能な作業範囲を広げるのかも気になる
Apple Photosやシステムのほかの部分に統合される画像・絵文字生成機能も本当に素晴らしく見える。Mac/iPadはM1以上、iPhoneは15 Proが必要に見える
サービス統合は既存モデルを使い、もともとAppleScriptから続いてきたAPIを大規模言語モデルやStable Diffusion系システムへ拡張する感じだ。ただしゲームとクラウドの推進のために、M4をできるだけ早く押し出したいようにも見える
デバイス内モデルが「これはChatGPTのほうがうまく答えられる」と判断すると、ユーザーに使うかどうかを尋ねる方式だ。説明上は、時間が経つにつれてほかのモデルも差し込める構造に見えた
特にChatGPT 4oはOpenAIアカウントを作らなくても無料で使える
一般に、クライアントがサーバー上で実行中のコードを暗号学的に確認できるという意味なのか? もしそうなら、この用途以外でも非常に興味深く有用だ
「private cloud compute」で正確に何を計算しているのかは明確ではない
「この作業にChatGPTを使ってもよいですか?」と尋ねる部分は、ものすごく不格好でAppleらしくないと感じる
古い言い回しだけど、Steve Jobsなら墓の中で寝返りを打っていそう。なぜそれが必要なのか正直混乱する
十分に一貫した統合を作れなかったのか? だとすれば、残りはChatGPTベースではないということなのか? 違いは何なのか? ユーザー視点ではかなり混乱する
デバイス内AIでトップになることは非常に大きな市場機会だ。すべてを自前でやろうとするのは、Google検索ホームページとの提携なしにSafariを出すような愚かさだ
Appleは、デバイス内処理とプラットフォーム全体のユーザー体験にAIを溶け込ませるという自社の強みに集中しつつ、プライバシーを損なわずにいられる。そしてAI検索クエリのように、大規模な外部サーバーファームとインターネットアクセスのためにデータを外へ出す必要がある領域では、市場リーダーを活用すればよい
システムが「答えを得るために友人に電話します」と言わないなら、100%ローカルか、最悪でも完全に非公開で監査されるApple Intelligenceの中に留まるという意味だ
バナナブレッドのレシピを尋ねるならChatGPTに行っても問題ないが、もっと個人的な情報を送るのは避けたいかもしれない
より具体的に「OpenAIが自分の個人データや質問を見るのか?」への答えは、「OpenAIと対話してよいと許可しない限り、すべてはiPhoneまたはPrivate Computeで処理される」だ
むしろその確認プロンプトが流れを止め、いつChatGPTの結果を取得するのかを明確にしてくれなかったら、新しいAI機能を使うことにためらいを覚えたはずだ
これは本当に素晴らしく見える
モデルはApple Siliconベースのprivate cloud computeへ拡張でき、ユーザーのデバイスが「publicly verifiable software」の実行を確認してデータの悪用を防ぐ、と説明していた
サーバー側コードがオープンソースになるのか気になる。そうならうれしい驚きだ。今後どう発展するのか楽しみだ
宣伝どおりに動くなら、まさに「黙って俺の金を持っていけ」になりそう。Siriはついに本来あるべき姿になるように見えるし、Shortcuts Actionsカタログの上に載せることで、初期段階からできる作業範囲を広げるのかも気になる
Apple Photosやシステムの他の部分に統合される画像・絵文字生成機能も本当に素晴らしく見える。Mac/iPadはM1以上、iPhoneは15 Proが必要に見える