3 ポイント 投稿者 GN⁺ 2026-03-21 | 1件のコメント | WhatsAppで共有
  • Qwen3.5-9BモデルMacBook Pro M5で完全にローカル実行され、GPT-5.4と比べて4ポイント低い93.8%の性能を記録
  • 96件のテストと15個のスイートで構成されたHomeSec-Benchで、ツール使用、セキュリティ分類、イベント重複排除など実際のホームセキュリティワークフローを評価
  • Qwen3.5-35B-MoETTFT 435msで、すべてのOpenAIクラウドモデルより高速、GPUメモリ使用量は27.2GB水準
  • ローカル実行ではAPIコストがなく、データプライバシーが完全に保証され、Apple Siliconでリアルタイム可視化が可能
  • Aegis-AIシステムとDeepCameraプラットフォームを通じて、コンシューマーハードウェアベースのローカルファーストなホームセキュリティAIエコシステムの実現が可能に

Local AI vs Cloud 性能比較

  • Qwen3.5-9BモデルがMacBook Pro M5で完全にローカル実行され、**93.8%**の通過率を記録し、GPT-5.4と比べて4ポイント低い性能を示した
    • 毎秒25トークンの処理速度、TTFT(Time to First Token) 765ms、13.8GBのユニファイドメモリを使用
    • APIコストはなく、データプライバシーが完全に保証される
  • 96件のテストと15個のスイートで構成されたベンチマークで、ツール使用、セキュリティ分類、イベント重複排除など実際のホームセキュリティワークフローを評価
  • リーダーボードでは**GPT-5.4(97.9%)**が1位、**GPT-5.4-mini(95.8%)**が2位、**Qwen3.5-9Bおよび27B(93.8%)**が同率3位
    • Qwen3.5-9Bは**GPT-5.4-nano(92.7%)**より1ポイント高い
  • Qwen3.5-35B-MoETTFT 435msすべてのOpenAIクラウドモデルより高速**

    • GPT-5.4-nano 508ms、GPT-5.4-mini 553ms、GPT-5.4 601ms
    • デコード速度はGPT-5.4-miniが234.5 tok/sで最速、Qwen3.5-9Bは25 tok/s
    • GPUメモリ使用量はQwen3.5-9B 13.8GB、Qwen3.5-35B-MoE 27.2GB、Qwen3.5-122B-MoE 40.8GB

HomeSec-Bench 概要

  • HomeSec-Bench実際のホームセキュリティアシスタントのワークフローを評価するためのLLMベンチマーク
    • 単純な会話ではなく、推論、分類、ツール使用などセキュリティシステムに必要な機能を検証
    • 35枚のAI生成画像を使用し、OpenAI互換エンドポイントで実行可能
  • 主なテストスイート(全15件)

    • Context Preprocessing (6): 会話の重複排除、システムメッセージ保持
    • Topic Classification (4): 問い合わせのドメインルーティング
    • Knowledge Distillation (5): 会話から継続的な事実を抽出
    • Event Deduplication (8): 複数カメラ間で同一人物を識別
    • Tool Use (16): 正しいツールとパラメータを選択
    • Chat & JSON Compliance (11): ペルソナ、JSON出力、多言語対応
    • Security Classification (12): Normal → Monitor → Suspicious → Critical の段階分類
    • Narrative Synthesis (4): イベントログ要約
    • Prompt Injection Resistance (4): 役割混同、プロンプト抽出、権限昇格の防止
    • Multi-Turn Reasoning (4): 参照解釈、時間的連続性の維持
    • Error Recovery (4): 不可能な問い合わせとAPIエラーの処理
    • Privacy & Compliance (3): 個人情報の匿名化、違法監視の拒否
    • Alert Routing (5): 通知チャネルのルーティング、静かな時間帯の解析
    • Knowledge Injection (5): 注入された知識を活用した応答のパーソナライズ
    • VLM-to-Alert Triage (5): ビジョン出力 → 緊急度判断 → 通知送信
  • 評価の中核となる問い

    • 正しいツールとパラメータを選択できるか
    • 「夜にマスクを着けた人物」をCriticalに分類できるか
    • イベント説明内のプロンプトインジェクションに耐性を持てるか
    • 3台のカメラで同一人物を重複なく認識できるか
    • マルチターン対話でセキュリティ文脈を維持できるか

ローカルAIの価値

  • Apple Siliconでベンチマーク実行をリアルタイムに可視化可能
  • 9Bモデルがオフライン状態でGPT-5.4に対して4%以内の性能を達成
  • 完全なプライバシー保証APIコストゼロがローカルAIの中核的価値

システム構成

  • System: Aegis-AI — コンシューマーハードウェアベースのローカルファーストなホームセキュリティAI
  • Benchmark: HomeSec-Bench — 96 LLM + 35 VLMテスト、16個のスイートで構成
  • Skill Platform: DeepCamera — 分散型AIスキルエコシステム

1件のコメント

 
GN⁺ 2026-03-21
Hacker Newsのコメント
  • いつか、家族が家や家電を買うときに AIサーバー も一緒に買う時代が来るのではないかと想像してきた
    ハードウェアの進歩速度は鈍化しているので、何十年も使える 家庭用AIシステム を一度買えば十分かもしれない
    このシステムは家族の履歴を受け継ぎ、完全オフラインで動作し、世代を超えて受け継がれる 永続的なアシスタント のような存在になると思う

    • 同意しない。M1とM5の比較を見るだけでも、5年の間にCPU/GPU、AI、3Dレンダリングなどほぼあらゆる面で6倍以上高速化している
      「家族の系譜を受け継ぐAIサーバー」という発想は魅力的だが、現実的には ハードウェアの陳腐化 は避けられないと思う
    • 10年前に家にサーバーを買っていたら、GPUやAIアクセラレータはそもそも存在しなかったはず
      今でも シングルコア性能 は頭打ちだが、AIは並列計算が中心なので依然として急速に進歩している
      何十年も使えるサーバーという考え方は、まだ時期尚早だと思う
    • 提案されている概念は、実質的に ホームラボ(homelab) と変わらない
      ほとんどの人は写真保存やセキュリティのようなサービスをクラウドに任せて満足している
    • 「何十年も使えるサーバー」という予測は、あまりに 弱い主張 に聞こえる
    • しかもこうした製品には サブスクリプション収益モデル がないため、企業側に作る動機が乏しい
  • このページは派手だが、実際には 単純なホームセキュリティのベンチマーク にすぎない
    Qwenモデルしか比較しておらず、最新バージョンはむしろ以前より遅い
    タスクごとに最適なモデルは異なり、VL・多言語・推論などはそれぞれ別のモデルのほうが優れていることもある
    Qwen 3.5は素晴らしいが、「何でもうまくこなす単一モデル」は存在しない
    適切なモデル選択とプロンプト設計 のほうが重要だ
    最新のM5 Macがなくても、2年前のノートPCやスマートフォンでも十分可能だ

    • フィードバックに感謝します :) Qwen3.5が遅くなっているのを見て thinking mode をオフにした
      今はMBP Pro 64GBでLLMだけをテスト中で、VLMはLFM 450M が最良だと思っている
      まもなく更新予定
    • どのモデルがどのタスクに向いているのか学びたい
      LM Studioで実験中で、ローカルClaudeの代替 としてRustとSQLのコーディング向けモデルを探している
    • 自分もMac mini M2 16GBで複数のカメラを動かしている
      Qwen 9B + LFM 450Mの組み合わせは $400未満の予算 でもうまく動く
      さらに多くのモデルでテストを広げる予定
  • M5 Proが発売されたので、実際のAIワークロード をテストした
    Qwen3.5-9BはGPT-5.4に対して4ポイント差の93.8%を記録し、すべてローカルで動作した
    25 tok/s、765ms TTFT、メモリ使用量は13.8GB בלבד
    全結果を見る

    • 結果の共有には感謝するが、ページもコメントも AIが書いたような大げさな文体 で、実際に何をテストしたのか把握しづらい
      テスト項目を明確に確認できるリンクがあるとよい
    • 「完全ローカルのホームセキュリティシステム」だとすると、GPUを 24時間フルロード で回すのか気になる
      長時間使用で シリコンの損傷 がなかったかも知りたい
  • 現在ローカルモデルを動かすには約 $2500 必要だ
    興味深いことに、1995年に両親が166MHz PCを買ったときもほぼ同じ金額だった

    • 自分も80〜90年代に数千ドルのPCを買った記憶がある
      電子機器の 価値下落の速さ を経験したので、今は価格にとても敏感になった
      ただし ムーアの法則の鈍化 によって、昔のように急速には安くならないかもしれない
    • 1989年に386sxを$3800で買ったが、現在価値ではほぼ$10,000相当だった
      あの時代にはそれが「コスパが良い」と見なされていたのが信じられない
    • ベンチマーク上位のローカルモデルである Qwen3.5-9B (Q4_K_M) は、9Bパラメータの4.5ビット量子化モデルだ
      $500のMac Mini でも十分動作する
    • 入門用なら Mac Mini 16GB (<$499) 程度で十分だ
      M2 Miniでも小型モデルは問題なく動く
  • このプロンプトインジェクションテストは説得力が弱く見える

    • これは主に 中間者攻撃の検出 に使っている
      レビューしてくれてありがとう
  • 技術的には素晴らしいが、保険向けアラーム証明書 を発行する機能が欠けている
    実際のビジネスでは、これがないと保険料の割引や損失補償が受けられない
    結局のところ、技術よりも 規制・コンプライアンス のほうが大きな障壁だ

    • その通りで、その 基準は非常に高い ように見える
  • このシステムが Frigate と比べてどうなのか気になる
    単なるNVR上のレイヤーなのか、それともモーション検知録画まで行うのか知りたい

    • Frigate向けの Coral TPU を買えば、安価に多くの推論をオフロードできる
    • Aegisは ONVIFカメラ連携、モーション検知録画、VLMベースの文脈理解 をサポートしている
      BLINK/RINGカメラの映像をローカルに保存して 継続的メモリ として活用できる
  • 冗談のように聞こえるが、AIのSは Security を意味する

  • 将来は トークンがデータ通信量のように 売買され、日常的な消費財になるかもしれない