ローカルAIが標準になるべき

(unix.foo)

13 ポイント投稿者 GN⁺ 8 시간 전 | 1件のコメント | WhatsAppで共有

アプリ機能に OpenAI や Anthropic API をつなぐ流れは一般的になったが、クラウドホスト型AIモデルへの依存は、サーバー障害や決済の問題だけで機能停止を招き、プライバシー負担まで大きくする
現代のデバイスには Neural Engine などの強力なオンデバイス計算能力があるが、その大半は遊休状態のまま放置され、サーバー応答を待つだけになっている
たとえば Apple の FoundationModels フレームワークを使えば、サーバーなしでデバイス上で直接、要約・分類・抽出などのAI機能を実装できる
The Brutalist Report の native iOS client は、記事要約を Apple のローカルモデル API で オンデバイス 生成し、サーバーを迂回することで、プロンプト・ユーザーログ・ベンダーアカウント・コンテンツ保存に関する脚注を不要にしている
ローカルモデルはクラウドモデルほど賢くないかもしれないが、要約・分類・抽出・書き換え・正規化のような データ変換 作業には十分なことがあり、クラウドモデルは本当に必要なときだけ使うべきである

クラウドAI依存の問題点

開発者がアプリ機能に OpenAI や Anthropic の API 呼び出しを無分別に追加するトレンドが広がっている
このやり方はソフトウェアを 脆弱にし、プライバシーを侵害し、根本的に不安定にする
- サーバー障害やクレジットカードの期限切れでアプリが停止する構造
ユーザーコンテンツをサードパーティのAIプロバイダーへストリーミングした瞬間、製品の性質そのものが変わる
- データ保持、同意、監査、漏えい、政府からの要請、学習データ利用などの問題が伴う
ネットワーク状態、外部ベンダーの稼働率、rate limit、アカウント課金、自前バックエンドの状態すべてに依存することになり、スタックが複雑化する
結果として、UX機能の1つが コストのかかる分散システム に変わってしまう
ローカルで処理できる機能をわざわざクラウドへ送るのは自滅行為である

ローカルデバイス活用の必然性

今やポケットの中のデバイスのシリコンは10年前とは比較にならないほど高速で、専用の Neural Engine も大半が遊休状態にある
- その一方で、バージニアのサーバーファームからの JSON 応答を待つ構造は不合理である
目標は "AI everywhere" ではなく 役に立つソフトウェア であるべきだ
ローカルで処理可能な機能なら、外部依存を選ぶこと自体が不要な損害になる

The Brutalist Report のオンデバイス要約

The Brutalist Report は 1990 年代スタイルのウェブに着想を得たニュースアグリゲーターサービスである
最近 native iOS client を作るにあたり、高密度なニュース読書体験を維持することを設計目標に据えた
iOS クライアントには、コントラストの強い見出し一覧、ウェブを読みにくくした要素を取り除くリーダーモード、選択的に記事を要約する “intelligence” ビューが含まれる
重要なのは、要約が Apple のローカルモデル API を通じて オンデバイス 生成される点である
サーバーを迂回でき、プロンプトやユーザーログ、ベンダーアカウント、「コンテンツを30日保管します」といった類いの脚注が不要になる
すべてのAI利用がサーバー側で起こると考える流れがあまりに自然になっており、これを巻き戻すには業界全体の努力が必要である
一部のユースケースはクラウドホスト型モデルにしか出せない知能を必要とするが、すべてがそうではないため、慎重な判断が必要である

Apple エコシステムのローカルAIツール

Apple エコシステムではここ1年、開発者が組み込みのローカルAIモデルを簡単に活用できるよう投資が行われてきた

基本フローは FoundationModels を import し、SystemLanguageModel.default の利用可否を確認したうえで、LanguageModelSession でプロンプトを組み、応答を受け取るというものだ

import FoundationModels  

let model = SystemLanguageModel.default  
guard model.availability == .available else { return }  

let session = LanguageModelSession {  
  """  
  Provide a brutalist, information-dense summary in Markdown format.  
  - Use **bold** for key concepts.  
  - Use bullet points for facts.  
  - No fluff. Just facts.  
  """  
}  

let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
  articleText  
}  

let markdown = response.content

長いコンテンツはプレーンテキストを約1万字単位に分割し、各チャンクで簡潔な “facts only” ノートを作ってから、2回目のパスで最終要約をまとめることができる
この種の作業はローカルモデルに向いている
- 入力データはユーザーがすでに読んでいるコンテンツであり、デバイス上にある
- 出力は軽量
- 高速かつ非公開で処理される
- ユーザーがいま開いたページを要約する作業であり、世界知識を新たに生み出す作業ではないので、超人的な知能は必要ない
ローカルAI は、モデルの役割が宇宙全体を検索することではなく、ユーザーが所有するデータを変換することにあるとき真価を発揮する

信頼を作る方法

メール要約、ノートからのToDo抽出、文書分類のようなAI機能は、人々が欲しがりながらも信頼できない機能に属する
一般的なクラウド方式は、こうした機能をすべて「データをサーバーに送ってもよいか」という信頼問題に変えてしまう
ローカルAIは、すでにデバイス上にあるデータをその場で処理させることで、この構造を変える
ユーザーの信頼は2,000語のプライバシーポリシーでは作れない
そもそもそのようなプライバシーポリシーを不要にする設計こそが信頼を生む

構造化出力と型ベースAI

Apple が最近行った優れた選択の1つは、“AI output” を構造のないテキスト塊から 型付きデータ へ移したことだ
「モデルに JSON を要求して、うまく出ることを祈る」方式よりも、望む結果を表す Swift の struct を定義するほうが、新しく優れたパターンである

各フィールドに自然言語のガイドを与え、モデルにその型のインスタンスを生成させる

import FoundationModels  

@Generable  
struct ArticleIntel {  
  @Guide(description: "One sentence. No hype.") var tldr: String  
  @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
  @Guide(description: "Comma-separated keywords.") var keywords: [String]  
}  

let session = LanguageModelSession()  
let response = try await session.respond(  
  to: "Extract structured notes from the article.",  
  generating: ArticleIntel.self  
) {  
  articleText  
}  

let intel = response.content

この方式なら、UI が Markdown の箇条書きを無理に拾ったり、モデルが JSON スキーマを覚えていることを期待したりする必要がない
アプリは 実際のフィールドを持つ実際の型を受け取り、一貫してレンダリング できる
アプリが本当に利用できる 構造化出力 を生み出し、その全工程がローカルで実行される
単なる便利なインターフェースではなく エンジニアリング品質の改善 である
ローカルファーストなアプリにおいて、「AIは面白い機能」ではなく 「信頼できるサブシステム」 として機能させる差になる

「ローカルモデルはそれほど賢くない」への反論

ローカルモデルがクラウドモデルほど賢くないのは事実だが、ほとんどのアプリ機能には関係しない
たいていの機能が求めているのは、シェイクスピアを書く能力や量子力学を説明する能力ではなく、要約、分類、抽出、書き換え、正規化 のいずれかを安定して実行する能力である
こうした作業においてローカルモデルは 十分に優秀 である
ローカルモデルをインターネット全体の代替として使えば失望するが、アプリ内部の 「データ変換器」 として使えば、なぜサーバーへ送っていたのか疑問に思うほどだ
クラウドモデルは本当に必要なときだけ使い、ユーザーデータはあるべき場所に置いておくべきである
AIはチャットボックスを貼り付けるものではなく、型付き出力と予測可能な動作 を備えた実際のサブシステムとして使うべきである

プライバシーと信頼構築

メール要約、ノートからのアクションアイテム抽出、文書分類など、人々が 欲しがりながら信頼していない AI機能は多い
クラウド方式はこれらすべてを信頼実験へと変える: "データをサーバーへ送ってください、適切に扱います"
ローカルAIはこれを根本から変える — データはすでにデバイス上にあり、デバイスで そのまま処理 される
2,000語のプライバシーポリシーを書くことでではなく、そもそも そのようなポリシーが不要な構造 にすることで信頼を築く

1件のコメント

GN⁺ 8 시간 전

Hacker Newsの意見

主流ユーザーが今 ローカルAI に抱いている感覚は、数十年前にオープンソースを見ていた感覚と似ている
一部の製品では有料ソリューションがはるかに先行していたため、オープンソースはしばしば完全に無視され、「なんでわざわざ？」という空気だった
その後、依存的なSaaSやプラットフォームが登場し、今ではその判断が概ね間違っていたことは明らかになっている
コーディングにおける AnthropicとOpenAIへの依存度 は常軌を逸しているが、多くの人は気にしていないか、中国がオープンウェイトを止めないことを願うだけだ
オープンウェイトのビジネスモデルは非常に新しく、国家と研究所の綱引きが混じり、実質的な監視もほとんどないまま途方もない金が動いている
今は莫大な価値がほぼすべての人に開かれているが、私たちが制御できない理由で何の警告もなく止まるかもしれない危険な賭けでもある
- 現時点で出ている最高水準の オープンウェイトLLM をコンシューマー向けハードウェアで継続的に動かすことを妨げるものが何なのか分からない
  用途の95%には十分で、賞味期限もない
  「リスク」は次世代モデルを使えない程度だが、その影響は非常に小さく見える
- オープンウェイトAIのビジネスモデル が何なのか分からないし、実質的には存在しないと思う
  せいぜい、より高性能なモデルを売るための広告の役割くらいだ
  オープンソースとの大きな違いは、自由時間と意志だけではLLMを学習させられないことだ
  大量のデータと莫大な計算資源が必要になる
  この点については自分が間違っていてほしいし、未来がオープンウェイト寄りになるほうがずっと望ましい
- ローカルAI対クラウドAIという構図であるべきではないと思う
  ローカルAIは別製品 として扱い、本当にクラウドAIが不要な仕事はローカルで処理し、そのうえでクラウドAIを代替手段として使えばコストはかなり下がるはずだ
- 米国政府が独自の ローカルAI を作るのを待っている
  税金で作られるものだから、最終的にはオープンソースとして公開される可能性があるし、NSAには数十年分のインターネットデータがあるので、それで学習すればオープンウェイトでもどこかの企業モデル並みに良くなりうる
- コストが重要な要素になったり、無料だが弱めの選択肢が魅力的で利用しやすくなれば、たとえばApple流UXのオンデバイスエージェントのような形になれば、ユーザーはかなりローカル側へ動くだろう
  写真の背景除去やPDF OCRを考えてみれば、日常用途でこうしたものに有料サービスを使う人はほとんどいない
その瞬間は来るし、そう遠くもない
流れはすでにできている。最初は大規模データセンターでしか高性能なLLMを動かせなかったが、今では H100を数枚積んだサーバー数台 程度の水準には確実に来ており、さらに「MacBook ProやStrix Haloで128GB VRAM」へと向かっている
今後1年以内に企業では「高価なリモートLLMで計画し、ローカルの遅いが人間より速いLLMで実行する」というパターンが標準になり、徐々に「全部ローカルLLMでも十分だ」へ移っていくだろう
最終的には既存クラウドと同じような均衡になる。自前でホストするか、柔軟性と速度に金を払うかだ
問題は、ローカルホスティングが現在の 計算資源の過熱 をどこまで終わらせるのか、そしてそれが市場に何を意味するのかだ
- その時点はもう今来ている
  3年前のそこそこ良いゲーミングPC、だいたいRTX 3080 12GBとRAM 32GBで量子化した QwenとGemma を動かしている
  遅くてコンテキストウィンドウも小さいが、適切な実行環境を組み合わせれば旅行写真を見て分類できる
  レシートOCRをして支出を要約できるし、簡単な質問に答え、コードを分析し、コンテキストがあまり要らないときはコードも書ける
  VS Code連携を詰めれば、それなりの自動補完も作れそうだ
  「MacBook ProやStrix Haloで128GB VRAM」はエージェント型コーディングのための最小実用構成だと見ている
  ただし現状では逆に進んでいる。クラウド版は自前ホスティングより何桁も安いが、それは共有によってサーバー利用率をはるかに高められるからだ
  会社がGLM 5.1を動かす装置に50万ドル使えば、データセキュリティ、柔軟性、検閲なしは得られるが、Anthropicのシート課金と比べると高すぎる
- ローカルモデルの最大の影響は、単に リモート推論 が唯一の選択肢になるのを防ぐことかもしれない
すぐ数行下の投稿では、Chromeがローカル推論用に数GBの容量を使う ローカルLLMモデル を入れたと大騒ぎになっていた
やっても叩かれ、やらなくても叩かれるというわけだ
- 聞きもせずにギガバイト単位の帯域とストレージを使わなければいい
- モデルが必要なら自分で取りに行ってダウンロードする
  少し前にも画像生成で遊ぶためにそうした
- これは少し不誠実な解釈だ
  人々が怒っているのはローカルモデルのインストール自体ではなく、ユーザー自律性の欠如 だ
  黙ってインストールせず、モデルをダウンロードするか選べるようにすればいい
  そんなに難しいことではないし、他のローカルな選択肢はみなそう動いている
- 妙な解釈だ
  オプトインでない、あるいはブラウザに無理やりねじ込むなら嫌だ
  ローカルLLMを動かすアプリが必要なデータをダウンロードすることに怒る人はいない
- 実際に人々が何を不満に思っているのか、コメントを読んだほうがいい
  このコメントは議論の性質をかなり不誠実に扱っている
プライベートAIの議論 とローカルAIの議論は分けるべきだと思う
大きなLLMを動かす現実的な選択肢は、オンライン上の大型サーバー1台または複数台だが、だからといって民間企業だけがそれを運用すべきという意味ではない
優れたテナント分離保証、理想的にはゼロトラストを提供し、デプロイと保守が十分簡単なセルフホスト推論ソリューション、いわばAI向けのPlexのようなものが、プライバシーのための選択肢になるだろう
正直このあたりはまったく調べておらず、どれくらい現実的かも分からない。すでに存在していて、私が入るべきDiscordサーバーがあるのかもしれない
付け加えると、ここでわざわざ言う必要もないが驚くべきなのは、オープンモデル が最高の商用モデルにかなり近づいているので、最も難しい部分はすでに概ね解決されていると見ていいことだ
- もう一つの選択肢は、クラウドのセキュアエンクレーブ内でオープンソースモデルを動かす 検証可能な非公開推論 だ
  NVIDIA confidential computingを使い、エンクレーブのコードはオープンソースで、接続時にはリモートアテステーションで検証され、推論プロバイダーがどんなデータも見られないことを暗号学的に証明する
  Tinfoil: https://tinfoil.sh/ が良い例だ。利益相反の開示をすると共同創業者だ
  仕組みについてはここでさらに読める: https://docs.tinfoil.sh/verification/verification-in-tinfoil
  オープンモデルが最高の商用モデルに近づいているという話は、特定の作業では概ね正しい
  たとえばチャットインターフェースでは、すでに最高のオープンソースモデルが出せる水準を超えるモデル知能を活かすのは難しい
  しかしコーディング実行環境は、より高いモデル知能から依然として恩恵を受けるし、特にclaude-codeやcodexのように、プロバイダーのコーディング実行環境とモデルのツール呼び出しインターフェースが強化学習で密接に結び付けられている点も、モデル知能を統制しても効果差が出る別の理由だ
  複数のモデルプロバイダーを支援するオープンソースのコーディング実行環境であるopencodeの創業者も最近、プロバイダーごとに実行環境をうまく合わせる難しさをこぼしていた: https://x.com/thdxr/status/2053290393727324313
投稿の例は、ローカルモデルが成功するには最前線のモデルと競えるほど巨大である必要はなく、十分に良ければ いいという私の考えを裏付けている
小さな作業をうまくこなし、コンシューマー向けデバイスで現実的に動く必要がある
スマホでも動けばなお良い
ローカルLLMを試してみると、モデルサイズを大きくするのも良いが、ほとんど役に立たなかったモデルを有用に変えた本当の要素は ツール使用能力 だった
Web検索とWebページ取得を許可したときのほうが、より大きなモデルを使うよりも幻覚を減らすのにずっと役立ち、学習の締切問題もない
もちろん大きなモデルのほうがツールをよりうまく使える可能性はあるが、小さなモデルでも十分な場合は多かった
Chromeの新しい Prompt API がローカルモデルで何をできるか、デモを作ってみた: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
元記事のように、ユーザーが所有するデータを変換する制限された環境で光る
より開かれた作業には確かにあまり向いていない
- ChromeのPrompt APIをローカルLLMの良い例と見るのは勧めない
  悪くはないが、本当に弱い
  1年前の 8Bモデル のほうが面によっては良く、最近のモデルは意味のあるレベルでさらに良くなっている
- 「周辺コンテキストを使って広告コピーを書き換える」、そう、そのための計画だ
  ローカルモデルもWebページもなければ成り立たない
  他の全員が電力とハードウェア劣化の負担を背負う一方で、ベンダーにはより多く、より良く、より安価な 広告技術による搾取と監視 がもたらされる
- 決定的手続きのほうがはるかに適しているデータ変換をするためにLLMを回し、そのために 1000ワット電源 を使うわけだ
  実にすごい
既存の利害関係者はローカルを阻止するためにあらゆることをするだろうが、小さく専門化されたモデルが最終的に標準になると信じるに足る技術的理由がいくつかある
そうなればローカルも後を追うだろう
原文は、ユーザーが望むものに大きなモデルが必要かどうかに焦点を当てている
だが、大きなモデルは a) 機械論的解釈 が十分に成熟するか、b) マルチエージェントシステムが全部マルチモデルにならない限り、実際には十分に信頼できるようにならない可能性があるという根拠もある
aの場合、機械論的解釈の進歩が大きなモデルの問題を修正するかもしれないが、同時に統合表現を得て巨大モデルから有用な部分だけを切り出して使うことも可能にするかもしれない
必要なものだけ取り出し、不要なものは捨ててコストと問題表面を減らすわけだ
論理だけ必要か？ビジョンだけ必要か？巨大な怪物からその部分だけ切り出せばいい
問題を分離する能力は、機能的サブシステムを分離する能力なしには得にくい
bの場合、evil vectorやツール使用に特化した幻覚の類型を見ればいい
有用性/誠実さ/無害性のアラインメントに完全な解法がないなら、創造性と厳密性、そして他の多くの要素は根本的に衝突する可能性が高い
どうせあらゆる仕事に複数モデルが必要になるなら、なぜ高価で巨大な万能モデルが要るのか
だから専門化もまた、すべてを最小限で信頼できる専門家モデルへ縮小する圧力になる
LLMに対する私の問題意識は、哲学的側面や経済的影響とは別に、ローカルで 機能するモデルを学習 させるのは難しそうだということだ
おもちゃのようなLLMなら可能だろうが、本当に有用なものは難しいと思う
莫大な計算能力が必要なだけでなく、多くは違法に取得されたデータセットも必要になる
- 悲観的すぎるように見える
  私個人はそれほど優秀な知能ではないかもしれないが、今の知能を得るために、これまで書かれたすべての本、すべてのWikipedia記事、すべてのブログ記事、すべてのリファレンスマニュアル、すべてのコード行を学習する必要はなかった
  実際には、その1%どころか0.00000000001%すら学習していない
  テキスト自体が知能の前提条件ではないことは明らかだ
  少なくとも私が周囲を20年ほど緩やかに観察しただけで知能に近づいたのなら、必要な「データセット」は センサーと周囲の世界 だけだという強い証拠になる
  もちろん人間の脳はゼロから始まるわけではなく、知能が根付く土壌を作るまでに数百万年の進化があった
  だがその基本構造はかなり一般的で、特定の学習セットに依存しているようには見えない
  人工的に進化させることも可能かもしれない
- 現在の技術ではフルモデルではないが、LoRA は微調整に本当に優れており、高性能なゲーミングPCなら数時間で作れる
  ベースモデルが自分の言語をサポートしている限り、手元の電子機器の余剰計算力で月にいくつかのLoRAを学習できる可能性が高い
  将来、一般家庭向けコンピューターが現在のサーバー級能力を持つようになれば、自宅でフルLLMも学習できるだろう
- これが重要なのは、モデルをローカルで動かしても、なお 独占的モデル でありうるからだ
  何で学習されたのか、学習データがどうラベル付けされたのか、どんなガードレールがあるのか、どんなバイアスがあるのか、そのどれにも自分は関与できない
- ローカルで再現できない技術は多すぎるし、LLMが特別に違うとは思わない
  他のあらゆるものと同じく、大規模LLMメーカー、小規模LLMメーカー、職人的LLM制作者、LLM愛好家、そしてLLM消費者が生まれるだろう
- 分野による
  個人または非商用利用に必要な学習データを手に入れられるユースケースはかなり多い
  そこから先は学習に必要な計算量と時間の問題で、待つつもりがあるならコンシューマー向けハードウェアでも 有用なモデル を作れる
「クラウドモデルは本当に必要なときだけ使え」という話は正しいが、問題はローカルモデルの設定を詰めるのに時間を使うより、補助金付きの 最先端モデル を使うほうがずっと簡単だということだ
コーディングエージェントでそれを痛感した
いつも最新バージョンをxhighで使う必要はないかもしれないが、結局そうしてしまう
より短い時間、より少ない労力、実質的に同じ価格で仕事を終えられるからだ
主要ベンダーが実際のトークン使用量ベースで課金し始めてようやく、ローカルAIへの本気の取り組みが見えてくると思う
- 最先端モデルを使うほうが簡単なのは、問題ではなく機能だ
  無料枠のプロバイダータブを8つくらい開いていて、ChatGPT、Claude、Geminiが最先端寄りだ
  1つを上限まで使って次へ移るのに何の問題もない
  こうして一日中、自分のコードの特定の関数やクラスを実装させられる
  実際にソフトウェアを書いて設計できるので、1日で全部作ろうとしてエージェントを何度も回す必要はない
  Webチャットボットとコピー&ペーストだけでも、コードに対する強いメンタルモデルを保ったまま、1時間あたり数千行のコードを生成し、必要な部分は自分で直接直せる
  今朝もPythonプロジェクトでそうした
  必要なものを自分で設計しているので、各生成は単一関数を要求する形だったし、朝に何か追加する必要が出たときもチャットボットに聞かず、そのまま正しい場所へ行って自分で直した
  仕様から全体を生成するとそうはいかない
- 抵抗が最も少ない道がたいてい勝つ
  とりわけ価格が実コストを隠しているときはなおさらだ
- ローカルモデルで良い性能は見えていない
  LLMの記事が上がるたび、コメント欄には最新の DeepSeek/Qwenなど でOpus並みの結果が得られると強く主張する人が多いが、自分の経験はまったく違う
  オープンソースモデルは少しでも複雑な仕事をさせると、Claudeと比べて完全に崩れる
  90年代のLinuxと似た状況ではないかと疑っている
  ある程度は動いていたが、家庭ユーザー向けにはまったく準備ができておらず、主にイデオロギー的理由から、すべて問題ないと面と向かって言い張る人が多かったのと似ている
人々は実際に「最高のソフトウェア」を作ろうとしている
AIのドン・キホーテ的な加速主義者は、ソフトウェアを作る人々の中では声の大きい少数派にすぎず、オンラインAPIをローカルシステムより選ぶのは、たいてい開発者の怠慢ではなくユーザーのための選択だ
今はローカルモデルより 非公開AI で、より多くのことを、より良くこなせる
これは避けられない
ローカルAIが良くなっても、LLM性能の最前線に投資することはしばしば十分な価値がある
ほとんどの人は、製品が最高水準で、しかも圧倒的に便利でなければ受け入れない
その基準は高く、ローカルAIはしばしばその基準を満たせない
すべてのユーザーをオープンソース、プライバシー第一、セルフホストLinux狂信者として扱おうとするHNのこだわりは、見ていて気まずくなるほど古臭い