- 主要なAI企業は広告収益に基づくビジネスモデルへ移行しており、ユーザーの周囲にあるあらゆる視覚・聴覚情報を収集するハードウェア中心のAIアシスタントを開発中である
- このような常時オン(Always-on)のAIは、音声のウェイクワードがなくてもユーザーの日常会話を認識し、長期的な文脈を蓄積して能動的な支援を提供するよう設計されている
- しかし、このデータが広告企業のサーバーへ送信される構造では、プライバシーポリシーが変更されればいつでもリスクが生じる
- 一方、**ローカルのオンデバイス推論(edge inference)**構造では、データが物理的に外部へ出ないため、ポリシーではなくアーキテクチャレベルのセキュリティ保証が可能になる
- 最も有用なAIは同時に最も私的な技術にもなるため、データを外部に送らないローカルベースのAIへの転換が不可欠である
広告ベースの構造へ変わったAIアシスタント業界
- OpenAIはChatGPTに広告を導入しており、これは業界全体の構造変化として示されている
- OpenAIは2025年にJony Iveのハードウェアスタートアップioを65億ドルで買収し、画面のない小型AIデバイスを開発中である
- 主要なAIアシスタント企業はすべて広告収益で運営されており、常に周囲を観察するハードウェアを作っている
- この二つの要素が衝突するとき、**ローカルのオンデバイス推論(local inference)**だけがデータの乱用を防ぐ唯一の解決策として提示される
常時オンAIの必然性
- 既存の音声アシスタントは、「Hey Siri」や「OK Google」のような**ウェイクワード(wake word)**の後にのみ動作する仕組みだった
- しかし実際の生活上の会話ではウェイクワードを使う余裕がなく、自然な文脈認識型AIが必要になる
- 次世代アシスタントは、音声・ビジョン・存在検知・ウェアラブルなど多様なセンサーを通じて、継続的にユーザー環境を認識する
- したがって問題は「常時オンAIが生まれるか」ではなく、そのデータを誰が制御するのかである
- 現在、その制御権は広告企業が握っている
ポリシーは約束、アーキテクチャは保証
- 企業は「データ暗号化」「匿名化」「広告とは無関係」などを掲げるが、クラウド処理構造では完全な信頼は不可能である
- ユーザーは企業の現在・将来のポリシー、社内従業員、外部ベンダー、政府からの要請、未公表の広告パートナーまで、すべてを信頼しなければならない
- OpenAIは「広告主にデータを販売しない」と明記したが、GoogleがGmailを13年間広告ターゲティングに活用した前例がある
- ポリシーは変えられるが、アーキテクチャは変わらない
- ローカル処理構造では、データが物理的に外部へ出ることができない
- API呼び出し、リモートテレメトリ、匿名化された利用データの送信が不可能である
- メールよりはるかに機微な家庭内の音声・映像ストリームは、個人の私生活全体を含んでいる
- Amazonの事例のように、ローカル音声処理の廃止、広告連携計画、Ringへの法執行機関アクセス許可などは、中央集権型構造のリスクを示している
エッジ推論技術の成熟
- 過去には「ローカルモデルは性能が不足する」という反論があったが、現在は十分な水準に到達している
- リアルタイム音声認識、意味記憶、対話推論、音声合成など、完全なAIパイプラインを家庭内デバイス上で実行可能である
- ファン騒音なし、1回のハードウェア購入、データの外部送信なしで動作する
- モデル圧縮・オープンソース推論エンジン・効率的なシリコンの進歩によって可能になり、毎年、性能あたりの電力効率が向上している
- 実際のテスト環境でも問題は文脈理解の難しさであり、モデルサイズや性能不足ではない
- したがってハードウェア・ソフトウェア販売中心のビジネスモデルが必要であり、
- メーカーは物理的にデータへアクセスできない構造を設計しなければならない
ローカルAIの必要性と結論
- 最も有用なAIは、最も私的な情報を扱う技術になる
- これを安全に保つ唯一の方法は、データを外部へ送信できない構造的設計である
- ポリシー、約束、設定変更では保護できず、アーキテクチャレベルでの遮断が必要である
- 「Choose local. Choose edge.」という文句で、データを外部へ送らないAIの構築を促している
1件のコメント
Hacker Newsの意見
この会社が掲げる製品が常時オンで、常時聞いているAIデバイスだという点で、この宣伝文句は滑稽に感じる
ローカルハードウェア上でのみ動作するとしても、私たちの人生のあらゆる瞬間が録音され、分析される必要はない
家族の私的な会話や未成年の瞬間まで保存されるのなら、それでよいのかという疑問が湧く
来客の同意は得ているのか、盗難や政府の令状、あるいは買収合併の際にもプライバシー保証が維持されるのかが心配だ
裁判所が命じれば、どんな形であれ情報は引き渡されるほかない
真のプライバシーを守るには、そもそも情報が存在しない必要がある
個人の脳内情報のように法的保護を受ける方向で立法が進んでほしいが、現実は逆に向かっている
ただし、私の許可なく情報が外部に出たり、物理的に容易に抽出できたり、私になりすましてアクセスできたりするなら絶対にだめだ
こうした条件を満たすなら、他人のプライバシーも侵害しないと思う
プライバシーを重視する人たちがターゲットなのに、そういう人たちこそ真っ先にこうした問題を指摘する人たちだからだ
結局、プライバシーを気にしない人たちはGoogleのようなものを使うだけだろう
私もローカル専用AIデバイスを作りたいと思っていたが、面倒で先延ばしにしている
ただ、このようなデバイスはニューロダイバース(neurodiverse)**な人々にとっては人生を変えるほど有用になり得ると思う
リアルタイムで処理し、ユーザーの目標達成に役立つ行動だけを取る構造に見える
大手AI企業が広告収益中心で動いているという点には同意する
家の中に常時存在するAIは、プライバシー問題を避けるのが難しい
Black MirrorのThe Entire History of YouやTed ChiangのThe Truth of Fact, the Truth of Feelingのように、結局は私的空間も監視で満たされていく気がする
こうした流れの中で、技術を拒む人たちは次第に社会の周縁へ追いやられていくように思える
「常時オンの未来は避けられない」という言葉には同意しない
オープンソースを使い、データを採掘しないサービスに料金を払い、倫理的なスタートアップを支援すればよい
Androidに代わるMobile Linuxが必要だと思う
企業ではなく個人が、デバイスとソフトウェアを完全に制御できるべきだ
無料サービスの便利さに惑わされず、お金で投票すべきだ
人々は結局現状維持を選ぶ
「コンテキスト認識」という言葉は、結局監視の別表現だ
人々は自分が小さなBig Brotherをポケットに入れて持ち歩いていることを、だんだん当たり前のものとして受け入れるようになるだろう
だが大半はただ諦め、個人単位の小さな解決策で満足している
私もプライバシー立法に関わったが、大衆の無関心のせいで何も起きなかった
LLMの自動化がなくても、監視は現実だ
ローカルで動作するとしても、常時聞いているアシスタントは依然としてプライバシー侵害だ
友人が訪ねてきたとき、自分たちの会話が録音されるかもしれないという事実を不快に感じるだろう
完璧な**話者分離(speaker diarization)**がない限り、このようなシステムは決して安心できない
すべての家族構成員が同じメモリプールを共有するが、これは依然として未解決のプライバシー問題だ
今後は話者識別ベースのSTTモデルによって、個人ごとのメモリタグ付けを試みる予定だ
製品は今年末の発売予定だというが、実物写真すらない
ウェブサイトのデザインも粗く、資金力も乏しそうに見える
結局、このようなデバイスがハッカーにプライバシー逆広告機として悪用されるのではないかと心配だ
プロトタイプ製作過程で実際の写真を公開している
広告が露骨に入ることより、モデル内部の暗黙的な推薦バイアスのほうが危険だ
ChatGPT、Claude、Perplexityに同じ質問をしても、上位5件の推薦の一致率は40%程度にすぎない
Google検索順位との相関もほとんどない
結局、どの製品を勧められるかはモデルの不透明な内部決定にかかっている
私は常時オンのAIアシスタントの魅力が理解できない
プライバシー以前に、このようなデバイスは自分の人生の主導権を弱めてしまいそうだ
必要なときだけ動くオンデマンド型の支援役ならよいが、過剰な自動化はかえって人間の思考を萎縮させるかもしれない
「友達のようなAI」として包装された監視ドローンの海になるかもしれない
皆で前に進む代わりに、それぞれがチーズを奪い合う回し車の競争だ
「卵ある?と聞いたら、隣人が卵を持って現れる」式のAI相互作用の風刺シナリオが興味深い
会話データを学習したAIが次第に人間の言葉を先回りして補完し、やがて沈黙の中のナレーションモードへ切り替わる場面が印象的だ
記事でAnthropicに触れていないのは残念だ
現在もっとも優れたプログラミング系エージェントを作っており、OpenClawアシスタントの中核でもあった
常時聞いているスマートスピーカーは、意図して使うOpenClawよりもプライバシーリスクがはるかに大きい