MacBook M5 ProとQwen3.5ベースのローカルAIセキュリティシステム

(sharpai.org)

3 ポイント投稿者 GN⁺ 2026-03-21 | 1件のコメント | WhatsAppで共有

Qwen3.5-9BモデルがMacBook Pro M5で完全にローカル実行され、GPT-5.4と比べて4ポイント低い93.8%の性能を記録
96件のテストと15個のスイートで構成されたHomeSec-Benchで、ツール使用、セキュリティ分類、イベント重複排除など実際のホームセキュリティワークフローを評価
Qwen3.5-35B-MoEはTTFT 435msで、すべてのOpenAIクラウドモデルより高速、GPUメモリ使用量は27.2GB水準
ローカル実行ではAPIコストがなく、データプライバシーが完全に保証され、Apple Siliconでリアルタイム可視化が可能
Aegis-AIシステムとDeepCameraプラットフォームを通じて、コンシューマーハードウェアベースのローカルファーストなホームセキュリティAIエコシステムの実現が可能に

Local AI vs Cloud 性能比較

Qwen3.5-9BモデルがMacBook Pro M5で完全にローカル実行され、**93.8%**の通過率を記録し、GPT-5.4と比べて4ポイント低い性能を示した
- 毎秒25トークンの処理速度、TTFT(Time to First Token) 765ms、13.8GBのユニファイドメモリを使用
- APIコストはなく、データプライバシーが完全に保証される
96件のテストと15個のスイートで構成されたベンチマークで、ツール使用、セキュリティ分類、イベント重複排除など実際のホームセキュリティワークフローを評価
リーダーボードでは**GPT-5.4(97.9%)**が1位、**GPT-5.4-mini(95.8%)**が2位、**Qwen3.5-9Bおよび27B(93.8%)**が同率3位
- Qwen3.5-9Bは**GPT-5.4-nano(92.7%)**より1ポイント高い
Qwen3.5-35B-MoEはTTFT 435msですべてのOpenAIクラウドモデルより高速**
- GPT-5.4-nano 508ms、GPT-5.4-mini 553ms、GPT-5.4 601ms
- デコード速度はGPT-5.4-miniが234.5 tok/sで最速、Qwen3.5-9Bは25 tok/s
- GPUメモリ使用量はQwen3.5-9B 13.8GB、Qwen3.5-35B-MoE 27.2GB、Qwen3.5-122B-MoE 40.8GB

HomeSec-Bench 概要

HomeSec-Benchは実際のホームセキュリティアシスタントのワークフローを評価するためのLLMベンチマーク
- 単純な会話ではなく、推論、分類、ツール使用などセキュリティシステムに必要な機能を検証
- 35枚のAI生成画像を使用し、OpenAI互換エンドポイントで実行可能
主なテストスイート（全15件）
- Context Preprocessing (6): 会話の重複排除、システムメッセージ保持
- Topic Classification (4): 問い合わせのドメインルーティング
- Knowledge Distillation (5): 会話から継続的な事実を抽出
- Event Deduplication (8): 複数カメラ間で同一人物を識別
- Tool Use (16): 正しいツールとパラメータを選択
- Chat & JSON Compliance (11): ペルソナ、JSON出力、多言語対応
- Security Classification (12): Normal → Monitor → Suspicious → Critical の段階分類
- Narrative Synthesis (4): イベントログ要約
- Prompt Injection Resistance (4): 役割混同、プロンプト抽出、権限昇格の防止
- Multi-Turn Reasoning (4): 参照解釈、時間的連続性の維持
- Error Recovery (4): 不可能な問い合わせとAPIエラーの処理
- Privacy & Compliance (3): 個人情報の匿名化、違法監視の拒否
- Alert Routing (5): 通知チャネルのルーティング、静かな時間帯の解析
- Knowledge Injection (5): 注入された知識を活用した応答のパーソナライズ
- VLM-to-Alert Triage (5): ビジョン出力 → 緊急度判断 → 通知送信
評価の中核となる問い
- 正しいツールとパラメータを選択できるか
- 「夜にマスクを着けた人物」をCriticalに分類できるか
- イベント説明内のプロンプトインジェクションに耐性を持てるか
- 3台のカメラで同一人物を重複なく認識できるか
- マルチターン対話でセキュリティ文脈を維持できるか

ローカルAIの価値

Apple Siliconでベンチマーク実行をリアルタイムに可視化可能
9Bモデルがオフライン状態でGPT-5.4に対して4%以内の性能を達成
完全なプライバシー保証とAPIコストゼロがローカルAIの中核的価値

システム構成

System: Aegis-AI — コンシューマーハードウェアベースのローカルファーストなホームセキュリティAI
Benchmark: HomeSec-Bench — 96 LLM + 35 VLMテスト、16個のスイートで構成
Skill Platform: DeepCamera — 分散型AIスキルエコシステム

1件のコメント

GN⁺ 2026-03-21

Hacker Newsのコメント

いつか、家族が家や家電を買うときに AIサーバー も一緒に買う時代が来るのではないかと想像してきた
ハードウェアの進歩速度は鈍化しているので、何十年も使える 家庭用AIシステム を一度買えば十分かもしれない
このシステムは家族の履歴を受け継ぎ、完全オフラインで動作し、世代を超えて受け継がれる 永続的なアシスタント のような存在になると思う
- 同意しない。M1とM5の比較を見るだけでも、5年の間にCPU/GPU、AI、3Dレンダリングなどほぼあらゆる面で6倍以上高速化している
  「家族の系譜を受け継ぐAIサーバー」という発想は魅力的だが、現実的には ハードウェアの陳腐化 は避けられないと思う
- 10年前に家にサーバーを買っていたら、GPUやAIアクセラレータはそもそも存在しなかったはず
  今でも シングルコア性能 は頭打ちだが、AIは並列計算が中心なので依然として急速に進歩している
  何十年も使えるサーバーという考え方は、まだ時期尚早だと思う
- 提案されている概念は、実質的に ホームラボ(homelab) と変わらない
  ほとんどの人は写真保存やセキュリティのようなサービスをクラウドに任せて満足している
- 「何十年も使えるサーバー」という予測は、あまりに 弱い主張 に聞こえる
- しかもこうした製品には サブスクリプション収益モデル がないため、企業側に作る動機が乏しい
このページは派手だが、実際には 単純なホームセキュリティのベンチマーク にすぎない
Qwenモデルしか比較しておらず、最新バージョンはむしろ以前より遅い
タスクごとに最適なモデルは異なり、VL・多言語・推論などはそれぞれ別のモデルのほうが優れていることもある
Qwen 3.5は素晴らしいが、「何でもうまくこなす単一モデル」は存在しない
適切なモデル選択とプロンプト設計 のほうが重要だ
最新のM5 Macがなくても、2年前のノートPCやスマートフォンでも十分可能だ
- フィードバックに感謝します :) Qwen3.5が遅くなっているのを見て thinking mode をオフにした
  今はMBP Pro 64GBでLLMだけをテスト中で、VLMはLFM 450M が最良だと思っている
  まもなく更新予定
- どのモデルがどのタスクに向いているのか学びたい
  LM Studioで実験中で、ローカルClaudeの代替 としてRustとSQLのコーディング向けモデルを探している
- 自分もMac mini M2 16GBで複数のカメラを動かしている
  Qwen 9B + LFM 450Mの組み合わせは $400未満の予算 でもうまく動く
  さらに多くのモデルでテストを広げる予定
M5 Proが発売されたので、実際のAIワークロード をテストした
Qwen3.5-9BはGPT-5.4に対して4ポイント差の93.8%を記録し、すべてローカルで動作した
25 tok/s、765ms TTFT、メモリ使用量は13.8GB בלבד
全結果を見る
- 結果の共有には感謝するが、ページもコメントも AIが書いたような大げさな文体 で、実際に何をテストしたのか把握しづらい
  テスト項目を明確に確認できるリンクがあるとよい
- 「完全ローカルのホームセキュリティシステム」だとすると、GPUを 24時間フルロード で回すのか気になる
  長時間使用で シリコンの損傷 がなかったかも知りたい
現在ローカルモデルを動かすには約 $2500 必要だ
興味深いことに、1995年に両親が166MHz PCを買ったときもほぼ同じ金額だった
- 自分も80〜90年代に数千ドルのPCを買った記憶がある
  電子機器の 価値下落の速さ を経験したので、今は価格にとても敏感になった
  ただし ムーアの法則の鈍化 によって、昔のように急速には安くならないかもしれない
- 1989年に386sxを$3800で買ったが、現在価値ではほぼ$10,000相当だった
  あの時代にはそれが「コスパが良い」と見なされていたのが信じられない
- ベンチマーク上位のローカルモデルである Qwen3.5-9B (Q4_K_M) は、9Bパラメータの4.5ビット量子化モデルだ
  $500のMac Mini でも十分動作する
- 入門用なら Mac Mini 16GB (<$499) 程度で十分だ
  M2 Miniでも小型モデルは問題なく動く
このプロンプトインジェクションテストは説得力が弱く見える
- これは主に 中間者攻撃の検出 に使っている
  レビューしてくれてありがとう
技術的には素晴らしいが、保険向けアラーム証明書 を発行する機能が欠けている
実際のビジネスでは、これがないと保険料の割引や損失補償が受けられない
結局のところ、技術よりも 規制・コンプライアンス のほうが大きな障壁だ
- その通りで、その 基準は非常に高い ように見える
このシステムが Frigate と比べてどうなのか気になる
単なるNVR上のレイヤーなのか、それともモーション検知録画まで行うのか知りたい
- Frigate向けの Coral TPU を買えば、安価に多くの推論をオフロードできる
- Aegisは ONVIFカメラ連携、モーション検知録画、VLMベースの文脈理解 をサポートしている
  BLINK/RINGカメラの映像をローカルに保存して 継続的メモリ として活用できる
冗談のように聞こえるが、AIのSは Security を意味する
将来は トークンがデータ通信量のように 売買され、日常的な消費財になるかもしれない

MacBook M5 ProとQwen3.5ベースのローカルAIセキュリティシステム

Local AI vs Cloud 性能比較

Qwen3.5-35B-MoEはTTFT 435msですべてのOpenAIクラウドモデルより高速**

HomeSec-Bench 概要

主なテストスイート（全15件）

評価の中核となる問い

ローカルAIの価値

システム構成

関連記事

1件のコメント

Hacker Newsのコメント