1 ポイント 投稿者 GN⁺ 5 시간 전 | 1件のコメント | WhatsAppで共有
  • Core AIは、Apple silicon上でAIモデルをアプリ内で実行・最適化・配布するための新しいフレームワーク
  • CPU、GPU、Neural Engineを活用し、Swift APIで.aimodel推論をアプリに統合可能
  • PyTorchモデルをCore AIモデルに変換し、圧縮・デバッグ・事前コンパイルまでツールチェーンとして提供
  • 大規模モデルは実行前にspecializationが必要なため、ダウンロード、キャッシュ、初回実行フローの設計が重要
  • SAM 3、Qwen、Transformerの例で、オンデバイスのビジョン・言語・状態キャッシュ最適化フローも紹介

Core AIの役割

  • Core AIはAppleプラットフォーム全体でオンデバイスAI実行のための新しい技術群
    • iOS 27.0+ Beta、iPadOS 27.0+ Beta、macOS 27.0+ Beta、tvOS 27.0+ Beta、visionOS 27.0+ Beta、watchOS 27.0+ Betaをサポート
    • アプリ内で高性能なAI推論を実行し、ユーザーデータをデバイス外に送らない構成を提供
  • Core AIは単なる実行APIではなく、モデル準備からアプリ統合までを含む
    • モデル最適化、PyTorch変換、.aimodel生成、デバッグ、Xcodeプロファイリング、事前コンパイルを提供
    • ニューラルネットワーク以外のdecision treeやtabular feature engineeringモデルはCore MLの対象

開発フロー: PyTorchからSwiftアプリまで

  • Core AIは既存のPyTorchワークフローをApple silicon向け配布フローにつなぐ
    • torch.exportでPyTorchモデルをexported programに変換
    • Core AI PyTorch ExtensionsのTorchConverter.aimodelを生成
    • Core AI OptimizationでApple silicon向けの圧縮と最適化を適用
  • Swiftアプリでは新しいCore AI Framework APIでモデルのロードと推論実行を行う
    • AIModel.aimodelファイルを読み込み、推論関数を検査
    • InferenceFunctionは実行可能な単一の計算グラフ
    • NDArrayは多次元の入出力データを格納する型
    • run呼び出しでNDArray入力を渡し、推論結果を受け取る構造
  • Xcodeでは.aimodelファイルを直接確認可能
    • モデルサイズ、演算分布、メタデータ、関数シグネチャを確認
    • 動的shape次元は?で表示

パフォーマンス最適化: state、cache、memory layout

  • Transformerモデルのように入力シーケンスが長くなる構造では、推論時間が徐々に増えることがある
    • Snakeの例では、2つのSnakeをどちらもAIモデルで実行すると、時間が経つにつれてゲームが遅くなった
    • Core AI Instrumentsで推論区間が徐々に長くなる現象を確認
  • Core AIはstateを使ってkey/value cacheのような構造を実装できる
    • stateはモデル入力であると同時に、推論中に読み取られ、その場で更新される
    • 前段階のkey/valueを再計算せずキャッシュに保存
    • 毎回ゲーム全体の履歴を入力しなくてもよい構造
  • Swift側ではInferenceFunction.runstates引数にmutable viewコレクションを渡す
    • 更新後のモデルは時間が経っても一定の速度を維持
    • Instrumentsでも推論レイテンシの増加が大幅に緩和
  • Core AIは推論ループのオーバーヘッドを減らすメモリ制御機能も提供
    • NDArrayの最適なメモリレイアウトを確認し、その構造で割り当て可能
    • 出力値をあらかじめ割り当てて、推論中の新規出力割り当てを防止可能
    • 非同期値を使って複数の推論関数をパイプライン化可能

モデル配布: ダウンロード、specialization、事前コンパイル

  • Core AIモデルはすべてのAppleデバイスで実行できるソース表現であり、実行前にデバイスごとのspecializationが必要
    • モデル読み込み時に、すでにキャッシュ内にspecialization済みの結果があるか確認
    • なければ、そのデバイスとOSバージョンに合った実行artifactを生成
  • 大規模モデルではspecializationに時間がかかるため、ユーザー操作の途中に挟まないことが重要
    • SAM 3の例では、初回実行時にmodel loadと大きなspecializationイベントのため、spinnerが長時間表示された
    • 機能紹介画面で、ユーザーが試す段階になってからBackground Assetsでモデルをダウンロードするフローを提示
  • coreai-buildコマンドで、開発マシン上で一部のコンパイルを事前に実行可能
    • 特定デバイスアーキテクチャ向けのcompiled modelを生成
    • ユーザーデバイス側でもspecializationは必要だが、残作業が減るため準備時間を短縮できる
  • AIModelCacheでモデルキャッシュをプログラムから制御可能
    • 不要な項目を削除
    • 項目保持ポリシーを制御
    • 同じapp groupの複数アプリ間でキャッシュ共有

モデル最適化とデバッグ

  • Core AI Optimizationはモデル圧縮と量子化機能を提供
    • INT4、INT8、FP4、FP8の重み圧縮をサポート
    • calibrationデータまたはquantization aware trainingを使う量子化APIを提供
  • SAM 3の例では、32ビットのbaseline assetは3GB超だったが、4ビット圧縮後は約430MBになった
    • すべての層に積極的な圧縮を適用すると、隠れた花の1つが検出されなかった
    • 出力だけでは、どの層が問題かを見つけるのは難しい
  • Core AI Debuggerは変換後のモデルと元のPyTorchモデルの内部値を比較する
    • モデル構造をグラフで可視化
    • 中間テンソル値を確認
    • Pythonソースコードの特定行まで追跡
    • PSNR基準で差分の大きい演算を表示
  • SAM 3の比較では、PSNRの低いsync pointの大半がdetector decoderで発生
    • detector blockは全パラメータの4%にすぎず、圧縮による利得は小さい
    • detectorを量子化対象から外すと、すべての花が再び検出され、baseline品質を回復

Core AI Modelsと高水準API

  • Core AI Modelsリポジトリは、アプリ向けに変換・最適化できる人気モデルとexport recipeを提供
    • SAM 3やQwen系モデルを見つけてCore AIモデルへ変換可能
    • Swiftパッケージはモデルごとの前処理・後処理を抽象化
  • SAM 3のようなsegmentationモデルはCoreAIImageSegmenterとして利用可能
    • テキストプロンプトでオブジェクトを分割
    • 生のtensor shapeを直接扱わずにSwift APIでmaskを抽出可能
  • Qwenのような言語モデルはCoreAILanguageModelとしてロード可能
    • asset loading、engine creation、tokenizer setupを抽象化
    • FoundationModelsLanguageModelSessionと接続して利用可能
    • ストリーミング応答と@Generableベースの構造化出力を利用可能

開発者が注目すべき点

  • Core AIは「モデルをアプリで実行するAPI」より広い範囲のオンデバイスAI配布基盤
    • PyTorchモデルをApple silicon向け.aimodelへ変換するフロー
    • Swiftアプリでモデルを安全かつ効率的に実行するAPI
    • Xcode、Instruments、Debuggerによる性能・精度診断
  • アプリ設計では、モデル自体よりも準備プロセスがユーザー体験に大きく影響する
    • モデルをアプリにバンドルするか、Background Assetsで受け取るかの判断が必要
    • 初回実行時にダウンロードとspecializationをどう見せるかの設計が必要
    • キャッシュ方針と事前コンパイル戦略が大規模モデルの使い勝手に直結
  • Core AIはAppleプラットフォームでビジョンモデル、言語モデル、Transformerベースのモデルをオンデバイスで扱う開発フローを提示
    • SAM 3の例でsegmentationモデルの圧縮・分離・デバッグフローを提示
    • Qwenの例でカスタム言語モデルとFoundation Models APIの接続を提示
    • Snake Transformerの例でstateベースのkey/value cache最適化を提示

参考リンク

1件のコメント

 
GN⁺ 5 시간 전
Hacker Newsの意見
  • 近いうちに出る オンデバイス Foundation Models のアップデートのほうがさらに楽しみ: https://developer.apple.com/documentation/updates/foundation...
    まだ情報は多くない
    ただし https://github.com/Arthur-Ficial/apfel を管理しているので、バイアスがあるかもしれない

    • fm ツールが追加されたのを見たか気になる。Platforms State of the Unionで言及されていた
      実行するとこんな結果が出る: https://gist.github.com/robgough/7893602895e7580117475076198...
    • 同意。OS APIの中核の一部として、システム全体・プラットフォーム全体で使えるオンデバイスモデルが入るという発想はとても魅力的
      普段はソフトウェアが細かく分かれているほうを好むが、Appleの場合は標準搭載機能で気に入っているものが多い
      ソフトウェアが「このプラットフォームにはこのモデルがある」と分かっていて、さまざまな小さな、そして今後さらに大きくなる生成AIタスクに活用できる点が特に惹かれる
    • Apfelは有用そうに見える。ほぼ1年にわたって Apple Foundation Models を試してきたが、組み込みアプリケーションに使えそうだ
      ローカルエージェント型コーディングツールもさらに深掘りしており、little-coder --model ollama/gemma4:12b-it-qat から始めた
      セットアップ時間を数分節約できる小さな無料の本も作った: https://leanpub.com/read/local-coding-agents
      ハイパースケーラー主導のAI成長の誇張、とくにデータセンターの環境コストや社会的コストにはかなり腹が立っているので、ローカル・プライベートAI を促進する試みはすべて支持する
    • Core AIにOpenAPI互換エンドポイントを、少なくともテストツールとしてでも入れるというアイデアをAppleが採用しなかったようで意外
      MCPサポートを提供している今、コンテナ化/seatbelt戦略 についてももっと聞きたい
      Appleのコンテナシステムの中でDarwinがどう使われているのかについての話はまだ見ていない
      Apfelは素晴らしいプロジェクトで、Tahoeにアップグレードしたくなった唯一の理由だった
  • WWDC 2026 Core AI の動画
    Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
    Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
    Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/

  • これはPyTorchモデルをCPU、GPU、Apple Neural Engine(ANE)全体で実行される形式に変換する新しい方法のように見える [0]
    既存APIの Core ML を完全に置き換えるのか気になる [1]
    [0]: https://apple.github.io/coreai-optimization/
    [1]: https://developer.apple.com/documentation/coreml/

    • その通り。Core AIのドキュメントによると、アプリがニューラルネットワーク以外のモデルタイプ、たとえば 決定木 や表形式特徴量エンジニアリングを使うならCore MLを見るように書かれている
    • かなり興味深いが、たとえばMetal向けに最適化したモデルをllama.cppのようなものにロードして使う既存のやり方と比べて、性能 がどうなるのか気になる
      unslothは、こうした作業を「バッテリー同梱」方式でやってくれる良い例だ
    • Core MLを置き換えようとしているように見えるが、現時点では Core AI、Core ML、MLX とcoremltoolsの関係のほうがより分かりにくい
      それぞれの長所・短所と、どこまで機能的に同等なのかをAppleはもっとうまく説明すべきだ
    • OS 27以降が必要なので、後方互換性 のためにCore MLは依然として有用だ
  • ダウンロード数200万未満のアプリにはサーバー級モデルへのアクセスを無料で提供し、同じ プライバシー保証 も与えるとのこと
    時間がたてばすべてのアプリに拡大されるとよい。ハードウェア/コスト制約はあるだろうが、より大きな開発会社ならコストを払えるはずだ
    https://developer.apple.com/private-cloud-compute/

    • Apple Intelligence Extensionsへの言及を見ると、当面は大きく拡大するのではなく、その代わりユーザーがアカウントを持つ 他のプロバイダー と開発者が統合できるようにするのだと思われる
  • AIの未来は明らかに ローカル であり、最近では「無限トークン」と説明されている
    M1 MacBook Proでもそれができ、RTX 3090でも可能だ
    毎月何百ドルも払う必要はなく、ほかの人たちにとっても同じだ

    • 1980年代には、コンピューティングの未来は明らかにローカルだと考えられていた。家庭用コンピュータ、PC、Mac、オフィスサーバー(Novell、その後はディスク共有のあるWindows NT)といったものだ
      40年が過ぎ、私たちは現代版のスマート端末に近い 中央集権型インフラ へと戻ってきた
      AIの未来も結局はそのように流れていくだろう。おそらくローカルと中央集権の間を行き来する可能性が高い
      ただ、人々がローカルで動くものを売って金を稼げるとしても、中央集権化のほうがより大きな権力とより大きな金を生み出すように見える
    • 毎秒10トークンに制限された「無限トークン」なら、1か月で 2,600万トークン
    • 本当の金は、モデルの周辺コードを書いて特化タスク向けに効率化するところにある
      一般ユーザーは汎用モデルを求めるので、AIチャットアプリは今後も残るだろう
      ほとんどのプログラムはローカルで動かせる特化AIから利益を得られ、プログラム数はユーザー数よりはるかに多い
  • Appleは活性値の側にも取り組んでいるようだ。知る限りでは w4a8, w4a16
    もしきちんと実現できれば、そしてそれは大きな前提ではあるが、Appleの市場到達力を考えると、1,000億未満のパラメータモデルが学習・提供される方法をかなり左右し得る
    主な用途はオンデバイスになり、その多くはiOSよりmacOSになる可能性が高い

  • まだどこでも大きく取り上げられているのを見ていないが、Mac間の分散推論 は興味深い。Thunderbolt 5上のJACCL、OpenAI互換の mlx_lm.server、Mac上でのエージェント型実行が含まれる
    AppleはMLX(直接の重み取り込み)をFoundation Models / Core AIとは分けている

  • AI企業が上場を急いでいる理由はこれだ
    来年末ごろには、AIの大半を デバイス上で直接実行 するようになるだろう
    彼らには堀がなく、拡張の限界に達しており、魔法のように見えるものの大半はより小さなモデルに蒸留できる。そして彼ら自身もそれを分かっている

    • Qwenの300億級モデルは、毎秒30〜90トークンで回せるだけの メモリ帯域幅 があるマシンさえあれば、実用上十分に使える
      Qwenが1,200億級モデルのリリースを止めたのは非常に示唆的だ
      今後10年以内、ひょっとすると3年以内に、誰かがローカルで動かせるOpus 4.5級の2,560億モデルを出すだろう
      今、こちらのエンジニアはOpusトークンに月800ドルほど使っており、その比率ならローカルLLMの投資回収期間は約10か月だ
    • 本当に 拡張の限界 に達したのかは分からない
      残念ながら、より大きいモデルほど依然としてより良いモデルに見える
    • コーディング分野では、350億、700億、1,500億モデルを数百〜数千ドルの前払いで売り、1年間、毎月または隔月で新しいコーディング文書やリポジトリを学習したアップデートを提供する形が出てきそうだ
    • 万歳、彼らの締め付け支配は解かれた。革命万歳!
    • デバイス上で動くごく小さなモデルが1つ欲しい。たとえば自動補完で、「I'll be right Brian」ではなく「I'll be right back」を使いたいのだと分かる程度でいい
      今の 最優先のAI要望 はそれだ。頼む、Apple
  • Linuxにもこういうものがあるのか気になる
    たとえばアプリケーション開発者なら、カーネルが特定バージョン以上のとき GNU Core AI のようなものがあると想定できるだろうか?

    • Apple以外のプラットフォームでは、通常サポートすべきシリコンベンダーの数にさらに2社以上を足しただけの AIフレームワーク を気にしなければならない
      Appleも今やCore ML、MLX、Core AIの間でその状態になっているようだ
      フレームワークの断片化問題がすぐに消える兆しは見えていない
      NVIDIAは誰もが学習と推論をCUDAで行うことを望んでおり、NPUが有用だという事実は認めたがらない
      NPUを作る各社は、それぞれ独自のアーキテクチャと、LLM以前に設計されたハードウェアから受け継いだ制約に合わせた別個のフレームワークを持っている。多くはGPU向けの別のフレームワークも持っている
      OSベンダーも、ハードウェア別フレームワークの代わりに使ってほしいフレームワークを1つか2つは持っている
    • 実用面では llama.cpp がこの役割を果たしている。リンクして使うか、ネットワークAPIを使えばよい
    • ない。ただしRed HatとIBMは自分たちのディストリビューション向けにそういうことをやっている
    • onnxruntime、llama.cpp、より具体的にはggmlがあり、iree.devも試みている
  • これがANEでやりたいものを何でも実行できるという意味なのか気になる
    最後に試したときは、Face IDのような Appleのファーストパーティ機能 でしか使えないように見えた

    • モデルをCore MLに変換すれば、すでにそうできていた
      まったくANEを使えなかったのは MLX のほうだった
    • Core MLで何年も前からそうしている