Apple、新しいアクセシビリティ機能を発表
(apple.com)- Apple IntelligenceがVoiceOver、Magnifier、Voice Control、Accessibility Readerに適用され、画像説明・自然言語ナビゲーション・読書支援が強化される
- VoiceOverとMagnifierはImage ExplorerとLive Recognitionにより、カメラ画面内の内容について質問と回答ができるが、高リスクな状況では頼るべきではない
- Voice Controlは、正確なラベルや番号の代わりに「tap the purple folder」のような自然言語コマンドでiPhone・iPadの操作を支援する
- 字幕のない動画にはデバイス上で生成される字幕が自動表示され、iPhone・iPad・Mac・Apple TV・Apple Vision Proで提供予定
- Apple Vision Proは視線追跡でTolt・LUCIの代替運転システムを制御でき、Hikawa Grip & Standも世界展開される予定
提供時期とプライバシー保護
- 新機能とApple Intelligenceベースのアップデートは今年後半に提供予定
- Appleはアクセシビリティ機能にApple Intelligenceを適用しつつ、privacy by designの原則を維持するとしている
- Hikawa Grip & Stand for iPhoneはApple Storeオンラインで3つの新色で発売される
VoiceOverとMagnifierによる視覚情報の探索
- VoiceOverとMagnifierは、視覚障害またはロービジョンのユーザー向けに、画面情報や周囲の環境をより詳しく説明する
- VoiceOverのImage ExplorerはApple Intelligenceにより、写真、スキャンした請求書、個人記録など、システム全体の画像説明を提供する
- Live Recognitionのアップデートにより、VoiceOverユーザーはiPhoneのAction buttonを押して、カメラのビューファインダーに映る内容について質問し、回答を受け取れる
- ユーザーは自分の言葉で追加の質問を続け、より多くの視覚情報を確認できる
- Magnifierは、ロービジョンユーザー向けの高コントラストインターフェースで、同じ支援ナビゲーションと視覚説明機能を提供する
- MagnifierもAction buttonと連携し、「zoom in」「turn on flashlight」のような音声リクエストでアプリを操作できる
- VoiceOverとMagnifierは、人がけがをしたり危害を受けたりするおそれのある状況、高リスクな状況、経路案内、医療状態の診断や治療には頼るべきではない
Voice Controlの自然言語入力
- Voice ControlはApple Intelligenceを活用し、身体障害のあるユーザーがiPhoneとiPadを音声だけでより直感的に操作できるようにする
- 新しい柔軟入力機能により、正確なラベルや番号の代わりに、画面上のボタンやコントロールを自然言語で説明して操作できる
- 「say what you see」方式は、Apple MapsやFilesのような視覚的レイアウトを持つアプリを含め、すべてのアプリで利用できる
- 例として「tap the guide about best restaurants」「tap the purple folder」のように、画面に見える対象をそのまま表現するコマンドが使える
- 要素がアクセシビリティ向けに適切にラベル付けされていない場合に生じる障壁を減らす助けにもなる
- Apple IntelligenceベースのVoice Controlは、米国、カナダ、英国、オーストラリアの英語環境で提供予定
Accessibility Readerと生成字幕
- Accessibility Readerは、ディスレクシアからロービジョンまで、さまざまな障害のあるユーザー向けにカスタマイズされた読書体験を提供する
- Apple Intelligenceの適用により、科学論文のようなより複雑な原資料も処理できる
- 複数列、画像、表を含むテキストにも対応する
- オンデマンド要約により、詳細を読む前に文書の概要を先に確認できる
- 新しい内蔵翻訳により、ユーザーはカスタム書式、フォント、色を維持したまま、自分の母語でテキストを読める
- 新しい生成字幕は、キャプションや字幕のない動画で音声の文字起こしを自動表示する
- 対象には、iPhoneで録画したクリップ、友人や家族から受け取った動画、オンラインのストリーミング動画が含まれる
- 字幕はデバイス上の音声認識で非公開のまま生成され、iPhone、iPad、Mac、Apple TV、Apple Vision Proで字幕のない動画に自動表示される
- 字幕の見た目は動画再生メニューやSettingsでカスタマイズできる
- 生成字幕は米国とカナダの英語環境で提供予定
Apple Vision Proの電動車いす制御
- 一部の電動車いすユーザーはジョイスティックで運転できないため、代替運転制御が自立した移動に不可欠な場合がある
- Apple Vision Proの高精度な視線追跡システムは、互換性のある代替運転システム向けの応答性の高い入力方式として活用される
- Vision Proの視線追跡は頻繁な再調整を必要とせず、さまざまな照明条件で動作する
- この機能は米国でToltおよびLUCIの代替運転システム向けに提供される
- アクセサリ対応はBluetooth接続と有線接続の両方を含み、有線接続にはApple Vision Pro Developer Strapの購入が必要
- Appleは、より多くの車いす運転システムをサポートするため、今後も開発者との協力を継続する予定
- この機能とApple Vision Proは制御された環境での使用を想定しており、詳細情報はsupport.apple.com/en-us/118507で提供される
- ALSと10年間向き合ってきたPat Dolanは、自分で電動車いすを制御できる選択肢は自身にとって「金のように貴重だ」と語った
Hikawa Grip & Stand for iPhone
- Hikawa Grip & Stand for iPhoneはApple Storeオンラインで世界展開され、3つの新色で提供される
- ロサンゼルス拠点のデザイナーBailey Hikawaがアクセシビリティを念頭に開発したMagSafeアクセサリ
- 開発過程には、グリップ、筋力、移動能力に影響のあるさまざまな障害を持つ人々が参加した
- ユーザーが自分に最も合った方法でiPhoneを持てるようにする、適応型のグリップ兼スタンド
- HikawaとPopSocketsの協業により、この適応型アクセサリが初めて世界中で提供される
- Apple The Grove in Los Angelesでは、Hikawa、Shane Burcaw、Alex Baroneが参加するToday at Appleセッションが開催予定
- 購入可能な国はAustralia, Austria, Belgium, Canada, China, Denmark, France, Hong Kong, Italy, Japan, the Netherlands, Singapore, South Korea, Spain, Sweden, Switzerland, Taiwan, the United Arab Emirates, the UK, the U.S.で、apple.comから購入できる
その他のアクセシビリティアップデート
- Vehicle Motion CuesがvisionOSに追加され、移動中の車両の乗客としてApple Vision Proを使用する際の乗り物酔い軽減に役立つ可能性がある
- Vision Proはタップやシステム操作を実行する顔のジェスチャーをサポートする
- Vision Proには、Dwell Control使用時に視線で要素を選択する新しい方法も追加される
- Touch AccommodationsはiOSとiPadOSの設定を個別最適化する新しい方法を提供する
- Made for iPhone hearing aidsは、iOS、iPadOS、macOS、visionOSでAppleデバイス間のペアリングとハンドオフをより安定して行い、設定体験も改善する
- Larger Text対応がtvOSに追加され、ロービジョンの視聴者が画面テキストを大きくして読みやすくできる
- Name Recognitionは、聴覚障害または難聴のユーザーが誰かに自分の名前を呼ばれたとき通知を受け取れるようにし、世界50以上の言語で動作する
- 手話通訳アプリ開発者向けの新しいAPIは、進行中のFaceTimeビデオ通話にユーザーが人間の通訳者を追加できるよう支援する
- Sony Access controllerをiOS、iPadOS、macOSでゲームコントローラとして接続できる
- Sony Access controllerでは、サムスティック、9個の内蔵ボタン、最大4個の追加外部ボタンまたは特殊スイッチを構成してレイアウトをカスタマイズできる
- ユーザーは2つのコントローラを組み合わせて、より深くパーソナライズされたゲーム体験を作れる
提供言語と地域制限
- Apple Intelligenceはベータ提供で、対応言語はEnglish, Danish, Dutch, French, German, Italian, Norwegian, Portuguese, Spanish, Swedish, Turkish, Vietnamese, Chinese (simplified), Chinese (traditional), Japanese, Korean
- 一部機能はすべての地域や言語で提供されない場合がある
- 機能と言語の提供状況、システム要件はsupport.apple.com/en-us/121115で確認できる
1件のコメント
Hacker Newsの反応
Appleは新技術を何食わぬ顔でありふれた場所に忍ばせて公開テストするのが好きなので、エージェント型AIをまずアクセシビリティ機能として出すのはAppleらしいと思う
Touch Barは単なるOLEDバーではなく、MacのApple Silicon移行に向けた最初の一歩だったし、2016年のTouch Bar搭載MacBookのApple T1チップは、Macに搭載された最初の純粋なApple設計プロセッサだった
電源管理、ファン、スリープ/ウェイク、カメラとマイクへのアクセス、Touch ID用のSecure Enclaveといった役割をIntelチップセットから引き取り、その後T2はSSD暗号化、オーディオ管理、カメラ画像処理、起動プロセスの改ざん防止まで担うようになった
iPhone 3Gには、手で曲げるのがほぼ不可能な特注金属合金製のLiquidmetal SIM取り出しツールが入っていて、その後Appleはこの合金を使った製品を出していないものの、約20年後の折りたたみiPhoneで液体金属を使うという噂がある
RealityKitも、Apple Vision Proが出るまでは意味がはっきりしなかった3Dスキャンや各種AR機能を何年も前から備えていた
Touch Barは嫌われていたし、数年後になって技術好きがハックして調整し、より深い機能を付けた場合にだけ評価されるようになった
高価な合金でSIM取り出しツールを作るのも意味不明だったし、RealityKitやVisionは課題を探している解決策のように見える。Vision自体も失敗に向かっている最中だ
3D Touchにも発見しにくさと使いにくさの問題があったし、こういう例はもっとある
こういう材料は何十年も前からあるのに、Appleのブランド名とほぼ同義のように見えてしまうのはかなり気に入らない
あまり使われないのは主に非常に高価だからで、Appleのように数千万個単位の部品需要が保証されている立場なら、採算を合わせやすいのだろう
動画や写真を撮るときにレンズがMetaよりももっとはっきり点灯したり点滅したりすると読んだが、これはプライバシー上の助けになるかもしれないし、少なくともMetaではない
Metaのスマートグラスは気に入っているが、2組とも壊れ、サポートを受けられる店舗もないので、Apple製品が出たらすぐ乗り換えるつもりだ
開発者の観点から見ると、AppleのOSレベルのアクセシビリティAPIは本当に優れている
壊れるのはWebKitをネイティブアプリの中に埋め込む境界部分だ
TauriアプリでMonaco editorをWKWebView内に入れて配布したのだが、VoiceOverの
accessibilitySupport: autoモードがMonacoの後方テキスト選択を静かに壊していることを苦労して突き止めた"off"に設定しないと選択が正しく動かず、結局まともなテキスト選択とVoiceOver対応のどちらかを選ぶ必要があり、答えは選択機能のほうだったAppKit/UIKitでは堅牢だが、今どきのデスクトップアプリの多くが実際に居場所を見つけている内蔵WebViewの境界で崩れる
以前、目が見える側の人としてBe My Eyesに登録していた
期待したほど電話は多くなかったが、何度か手助けできてよかった
郵便物の封筒を読んだこともあるし、薬瓶のラベルを読んだこともあるし、大きなふかふかの椅子に座って買い物袋いっぱいのシリアル箱を持ってきた面白い2人組の男性が、それぞれ何なのか知りたがっていたこともあった
片方の男性が特定の種類をものすごく嫌っていたのを覚えている
このアプリには、視覚障害者のカメラを目の見える人が起動できる独特の機能があった
https://www.bemyeyes.com
視覚障害者が自分の問題を解決できるほどAIがうまく機能しているのは素晴らしいと思う
それでも、たまに見知らぬ人の小さくてランダムな用事を手伝うのには、とても人間らしい良さがあった
ある高齢の女性が台所の床にブルーベリーを一箱ぶちまけてしまい、私が方向を案内しながら全部見つけるのを手伝ったことが今でも心に残っている
見知らぬ人とつながって面白いことをした10分間で、4年たった今でも温かい記憶として残っている
全盲の当事者として、AIが追加された後にこのアプリを使い始めたが、子どもたちが物を動かした後に食品ラベルを読んだり、テレビがついているか確認したりするのに非常によく機能する
まだ一人暮らしだったらボランティア機能も使っていたと思うが、今はそうではない
良いことだし文句を言うつもりはないが、数年前に登録したのに一度も電話が来なかったので、結局削除した
Appleが本当にしっかりやるべきことがひとつあるとすれば、それは音声テキスト変換だ
アクセシビリティでは多くのことをうまくやってきたが、音声文字起こしに関してだけは10年とは言わないまでも少なくとも5年は遅れている感じがする
最近のiPhone入力はひどい
パームリジェクションは以前より明らかに悪くなっていて誤入力が増え、入力の自動修正アルゴリズムも以前より悪化し、自分が入力した位置より数語先の単語を勝手に間違って置き換えることが多い
音声認識も改善されていないし、スマホという形状そのもののせいで指も疲れる
iPhoneを使うことが苦行ではなくなるようにしてほしい
Appleの解決策は比べると前世紀の代物のように感じる
Appleのテキスト読み上げも、ElevenLabsやOpenAIがはるか先を走っている現状では同じことが言える
必要なのはiPhoneがこうしたことを同じ品質でネイティブ対応することだけで、Appleの閉じたエコシステムではそうでないとどこでも使えないからだ
昨日、また別のひどいiPhone入力の「機能」を見つけた
サードパーティのCarPlayアプリで一覧を見ていて、項目を選ぼうとタップする直前に先にアクセルを踏むと、一覧が数項目だけ残るように切り詰められて一番上までスクロールしてしまう
運転中の注意散漫を減らす素晴らしい方法ですね。次は車が動いたら地図の目的地でも変えるのかな?
人間とコンピュータの相互作用の研究がもっと広く適用されてほしいし、自動車/CarPlayエコシステムのように愚かなことをしたら法廷で責任を問われるべきだと思う
以前、バックカメラをオンにするたびに法的注意書きの後ろに画面を隠す車に乗ったことがあるが、その画面が表示されている間に少なくとも一人は後退車にはねられた歩行者がいたはずだ
メーカーはそうした悪いUI判断に100%責任を負うべきだ
このコツもHNで学んだ
設定アプリを開いてGeneralをタップし、KeyboardまでスクロールしてSlide to Typeをオフにすればいい
自分が入力した単語、あるいはiPhoneが自分が入力したと思っている単語を、ほぼ一語おきに修正しなければならない
修正している最中にも自動修正が新しくてもっと意味不明な誤字を作り出す
ときどき突然、日常的なことをまともにできなくなる熱病の夢レベルの狂気に達する
最悪なのは、昔はちゃんとしていたことだ
iPhone 4Sでは、ほぼフルキーボード並みの速度と精度で入力できていた
https://www.theregister.com/on-prem/2023/08/16/those-who-rel...
少なくとも2つの大きなバグは直してほしい
対応している場所でも入力がランダムに失敗するし、OneNoteのような大手企業のアプリの多くは音声入力をまったくサポートしていない
こういう場合、何十年も前のDragon Dictateのように、少なくとも代替経路があるべきだ
大文字化も相変わらずランダムで、修正すべきエラーがたくさん残っている
Appleはアクセシビリティを実機能というより、見栄えのするプレスリリースを可能にする材料として見ているように思える
面白い事実として、この動画は目の見える人向けにアクセスしやすく作られている
本当に視覚障害がある人なら、あの速度の音声を聞く人はいないし、視覚障害者がコンピュータを使う様子を見ると、想像しにくい速度の音声を聞き取る能力に驚かされる
私がよく挙げる例は、Microsoftの視覚障害のあるソフトウェアエンジニア、Saqib ShaikhがVisual Studioについて発表しているこの動画だ
リンクはその時点に合わせてある
彼のスクリーンリーダーが内容を読み上げる速さには本当に驚かされたし、自分にはまったく聞き取れなかった
キーボードショートカットを操る効率は、vim/emacsの達人たちでも恥ずかしくなるほどだった
とても速いロボット音声はかなり荒くて耳障りに感じられることがあり、それに頼っている視覚障害者でも、ときには刺激過多になることがある
音を使ったエコーロケーションを学んだ視覚障害者について読んだことがあるが、本当にすごい超能力のように見えて、いつかモニターを外して道具をちゃんと使う方法を学んでみたくなる
数年前に一緒に働いた視覚障害者は常に画面をオフにしていたので、ほかの人よりノートPCのバッテリーがほぼ2倍長持ちしていて、それだけでも便利な機能だった
あの驚異的なエコーロケーションの域までは行けなくても、半分でもできたらすごいし、アクセシビリティ変更を実際にQAできるという副次的な利点もある
これはLLMの本当に有用な応用に見える
もっと多くの会社が、生産性という名目で人を置き換えたり極限まで搾ったりするのではなく、人をどう助けるかに焦点を当ててほしい
私の経験は視力が落ちた高齢の親程度に限られるが、Appleが許す文字サイズに設定すると、そのスマホは読めなくなる
純正アプリでもサードパーティアプリでも、すべてのアプリでテキストが画面外にはみ出してしまう
請求書の例では、利用者に事業者へ確認するよう促しているが、なぜ請求書に書かれている番号へ電話してくれないのか分からない
Text Detectionを使えと言う代わりに、直接やってくれればいいのではないか。Apple Intelligenceならその能力はすでにあるはずだ
せいぜい見せかけの機能で終わらないか心配だ
付け加えるなら、グリップは良さそうだし、これにApple税が上乗せされないことを願う
新しい産業の進歩を製品そのものではなく技術として扱う
AIは製品そのものではなく、顧客体験を改善する機能になるだろう
ただ、前の投稿にあったこの問題(https://news.ycombinator.com/item?id=48178378)が一般化して、こうした有用な機能が危険にさらされないことを本当に願う
短期的にはその可能性は低そうだが、ユースケースが増えれば悪意ある行為者も増えるだろう
Appleがこうした技術で助けを必要としている人を支援するのは称賛に値する
だが、なぜ大半の企業がこういう方向を深掘りしないのか分からないふりをする必要はない
正直みんなその理由はよく分かっていて、こういうことはいつも曖昧な「誰か別の人」に任される
みんなこの部分を見落としている気がするが、電動車椅子向けの視線制御はすごくいいアイデアに見える
私だけかもしれないし、すでに昔からあるアイデアなのかもしれない
完全なVRはうまくいかなかったが、もっと軽くて薄いデバイスの市場があるのではと考えさせられる
普通の眼鏡サイズに収まるなら、視線制御デバイスには関心が出てくる
HUDシステムがあればさらに興味が湧くし、いくつかの記号だけを表示するようなごく基本的なものでもいい
基本的な音声まであるとさらに良いが、HUDや音声よりも普通の眼鏡の形を保つことのほうが重要だ
参照先のリンクをたどると、https://www.tolt.tech のような例がある
面白いのは、AppleがこれをOSに統合したことだ
正式なハードウェアの準備が整う前に、Appleが先に出して磨いておく機能のひとつという感じが強い
請求書の支払総額は$83.89です。支払う前に公共料金の事業者に確認するか、Text Detectionを使ってこの金額を確認してください
信頼できる人に数字を読んでもらう方が会社に電話するより良いかもしれないが、誰にでもその選択肢があるわけではない
あの文言は当然入れておくべき文言で、ChatGPTがフッターに「私たちが伝える内容はすべて確認してください」と書くのに似ている
「この請求書の支払総額は$83.89で、同じ会社の先月の請求書より4%高いです」のような感じだ
Appleが広告のYouTube版で、スクリーンリーダーの案内「the Apple logo」を削除したのは残念だ
https://www.youtube.com/watch?v=B3SmsSCvoss
自分としては、そこがこの広告を際立たせていたと思う
"English descriptive"に切り替えればよい正直に言うと、視覚障害者であり視覚障害のある開発者でもある立場からすると、これらの機能の大半は、よくて微妙という感じだ
Seeing AI、Envision AI、BeMyEyes、Airaのようなサードパーティアプリが、すでにこの大半をやっている
だから、よくてそれらのアプリのやっていることをより速くオンデバイスでやる程度で、それは逆に精度が落ちることを意味するかもしれないので、様子を見る必要がある
一方で、macOSのスクリーンリーダーであるVoiceOverは事実上メンテナンスモードで放置されてきており、ユーザーはWindowsの同種スクリーンリーダーが何年も前から持っていた機能を追加するために、かなり印象的なサードパーティ製の解決策を自前で作らなければならなかった
そういう観点では、これらすべては少し見せびらかし的に見えるが、それでも良い意味で驚かされるかもしれない
少し期待しているのはVoice Controlの改善だ
ボタンのプログラム上の名前を推測したり、要素を狙うために数字グリッドを延々と使ったりしなければならないのは、まったく楽しくなさそうだからだ
音声速度について言えば、速度を大きく上げるにはかなり練習が必要で、音声を変えるときにも多少の再訓練が必要になる
より「人間らしい」音声は超高速では追いにくいことが多く、そのため多くの人は、よりロボット的でも一貫性のある音声を好み、まだAIベースのTTSを信頼していない
こうした音声は、話速をある程度以上に上げると崩れやすい
実際の対象者の判断を待つべきという点は本当に重要だ
ますます多くの企業や個人がアクセシビリティを語り、アクセシビリティの解決策を作り、アクセシビリティ向けAIを説きながら、肝心の助けたい相手とは一度も話していない
そうするとほぼ確実に失敗が起き、ひどい場合には助けになるどころか害になる
AI製品を含め、アクセシビリティをきちんとやるには実際のlived experienceを持つ人を雇う必要がある
そうしないと、機械翻訳テキスト、ワンクリックでハッカーを防ぐセキュリティ、ゴム手袋を何千枚も注文するAIコーヒーバーみたいな結果になる
ちなみに今は新しいプロジェクトをやる時間がある :P
「悪いが矯正可能な」視力からロービジョンへ移行しつつある身として、自分にとっても価値があった
そうしたアプリがあることを知らず、まさにそういう支援技術を探していたところだった
Appleはこういう製品を作るとき、その問題を抱える人たちと一度も話していないように見える
面白いことに、私たちは挙げられていたサードパーティアプリの競合製品を作っていて、同僚は視覚障害のある親を持つ人として大きな経験を持っている
オンラインにはMVPがあるが、まだ大したものではないし、「そのアプリ作ってますよ」と言い出す人にはなりたくない
ただひとつ混乱したのは、オンデバイス処理が見せかけに終わる可能性があると感じた点だ
素朴に考えれば、携帯回線サービスと無関係に常に動くという意味で大きな利点だと思っていた
地下鉄、飛行機、僻地などでも使えるわけだから
それとは別に、日常生活で最も大きな違いを生んでいるアプリが何なのか気になる