- Qwen3.5-9BモデルがMacBook Pro M5で完全にローカル実行され、GPT-5.4と比べて4ポイント低い93.8%の性能を記録
- 96件のテストと15個のスイートで構成されたHomeSec-Benchで、ツール使用、セキュリティ分類、イベント重複排除など実際のホームセキュリティワークフローを評価
- Qwen3.5-35B-MoEはTTFT 435msで、すべてのOpenAIクラウドモデルより高速、GPUメモリ使用量は27.2GB水準
- ローカル実行ではAPIコストがなく、データプライバシーが完全に保証され、Apple Siliconでリアルタイム可視化が可能
- Aegis-AIシステムとDeepCameraプラットフォームを通じて、コンシューマーハードウェアベースのローカルファーストなホームセキュリティAIエコシステムの実現が可能に
Local AI vs Cloud 性能比較
- Qwen3.5-9BモデルがMacBook Pro M5で完全にローカル実行され、**93.8%**の通過率を記録し、GPT-5.4と比べて4ポイント低い性能を示した
- 毎秒25トークンの処理速度、TTFT(Time to First Token) 765ms、13.8GBのユニファイドメモリを使用
- APIコストはなく、データプライバシーが完全に保証される
- 96件のテストと15個のスイートで構成されたベンチマークで、ツール使用、セキュリティ分類、イベント重複排除など実際のホームセキュリティワークフローを評価
- リーダーボードでは**GPT-5.4(97.9%)**が1位、**GPT-5.4-mini(95.8%)**が2位、**Qwen3.5-9Bおよび27B(93.8%)**が同率3位
- Qwen3.5-9Bは**GPT-5.4-nano(92.7%)**より1ポイント高い
-
Qwen3.5-35B-MoEはTTFT 435msですべてのOpenAIクラウドモデルより高速**
- GPT-5.4-nano 508ms、GPT-5.4-mini 553ms、GPT-5.4 601ms
- デコード速度はGPT-5.4-miniが234.5 tok/sで最速、Qwen3.5-9Bは25 tok/s
- GPUメモリ使用量はQwen3.5-9B 13.8GB、Qwen3.5-35B-MoE 27.2GB、Qwen3.5-122B-MoE 40.8GB
HomeSec-Bench 概要
- HomeSec-Benchは実際のホームセキュリティアシスタントのワークフローを評価するためのLLMベンチマーク
- 単純な会話ではなく、推論、分類、ツール使用などセキュリティシステムに必要な機能を検証
- 35枚のAI生成画像を使用し、OpenAI互換エンドポイントで実行可能
-
主なテストスイート(全15件)
- Context Preprocessing (6): 会話の重複排除、システムメッセージ保持
- Topic Classification (4): 問い合わせのドメインルーティング
- Knowledge Distillation (5): 会話から継続的な事実を抽出
- Event Deduplication (8): 複数カメラ間で同一人物を識別
- Tool Use (16): 正しいツールとパラメータを選択
- Chat & JSON Compliance (11): ペルソナ、JSON出力、多言語対応
- Security Classification (12): Normal → Monitor → Suspicious → Critical の段階分類
- Narrative Synthesis (4): イベントログ要約
- Prompt Injection Resistance (4): 役割混同、プロンプト抽出、権限昇格の防止
- Multi-Turn Reasoning (4): 参照解釈、時間的連続性の維持
- Error Recovery (4): 不可能な問い合わせとAPIエラーの処理
- Privacy & Compliance (3): 個人情報の匿名化、違法監視の拒否
- Alert Routing (5): 通知チャネルのルーティング、静かな時間帯の解析
- Knowledge Injection (5): 注入された知識を活用した応答のパーソナライズ
- VLM-to-Alert Triage (5): ビジョン出力 → 緊急度判断 → 通知送信
-
評価の中核となる問い
- 正しいツールとパラメータを選択できるか
- 「夜にマスクを着けた人物」をCriticalに分類できるか
- イベント説明内のプロンプトインジェクションに耐性を持てるか
- 3台のカメラで同一人物を重複なく認識できるか
- マルチターン対話でセキュリティ文脈を維持できるか
ローカルAIの価値
- Apple Siliconでベンチマーク実行をリアルタイムに可視化可能
- 9Bモデルがオフライン状態でGPT-5.4に対して4%以内の性能を達成
- 完全なプライバシー保証とAPIコストゼロがローカルAIの中核的価値
システム構成
- System: Aegis-AI — コンシューマーハードウェアベースのローカルファーストなホームセキュリティAI
- Benchmark: HomeSec-Bench — 96 LLM + 35 VLMテスト、16個のスイートで構成
- Skill Platform: DeepCamera — 分散型AIスキルエコシステム
1件のコメント
Hacker Newsのコメント
いつか、家族が家や家電を買うときに AIサーバー も一緒に買う時代が来るのではないかと想像してきた
ハードウェアの進歩速度は鈍化しているので、何十年も使える 家庭用AIシステム を一度買えば十分かもしれない
このシステムは家族の履歴を受け継ぎ、完全オフラインで動作し、世代を超えて受け継がれる 永続的なアシスタント のような存在になると思う
「家族の系譜を受け継ぐAIサーバー」という発想は魅力的だが、現実的には ハードウェアの陳腐化 は避けられないと思う
今でも シングルコア性能 は頭打ちだが、AIは並列計算が中心なので依然として急速に進歩している
何十年も使えるサーバーという考え方は、まだ時期尚早だと思う
ほとんどの人は写真保存やセキュリティのようなサービスをクラウドに任せて満足している
このページは派手だが、実際には 単純なホームセキュリティのベンチマーク にすぎない
Qwenモデルしか比較しておらず、最新バージョンはむしろ以前より遅い
タスクごとに最適なモデルは異なり、VL・多言語・推論などはそれぞれ別のモデルのほうが優れていることもある
Qwen 3.5は素晴らしいが、「何でもうまくこなす単一モデル」は存在しない
適切なモデル選択とプロンプト設計 のほうが重要だ
最新のM5 Macがなくても、2年前のノートPCやスマートフォンでも十分可能だ
今はMBP Pro 64GBでLLMだけをテスト中で、VLMはLFM 450M が最良だと思っている
まもなく更新予定
LM Studioで実験中で、ローカルClaudeの代替 としてRustとSQLのコーディング向けモデルを探している
Qwen 9B + LFM 450Mの組み合わせは $400未満の予算 でもうまく動く
さらに多くのモデルでテストを広げる予定
M5 Proが発売されたので、実際のAIワークロード をテストした
Qwen3.5-9BはGPT-5.4に対して4ポイント差の93.8%を記録し、すべてローカルで動作した
25 tok/s、765ms TTFT、メモリ使用量は13.8GB בלבד
全結果を見る
テスト項目を明確に確認できるリンクがあるとよい
長時間使用で シリコンの損傷 がなかったかも知りたい
現在ローカルモデルを動かすには約 $2500 必要だ
興味深いことに、1995年に両親が166MHz PCを買ったときもほぼ同じ金額だった
電子機器の 価値下落の速さ を経験したので、今は価格にとても敏感になった
ただし ムーアの法則の鈍化 によって、昔のように急速には安くならないかもしれない
あの時代にはそれが「コスパが良い」と見なされていたのが信じられない
$500のMac Mini でも十分動作する
M2 Miniでも小型モデルは問題なく動く
このプロンプトインジェクションテストは説得力が弱く見える
レビューしてくれてありがとう
技術的には素晴らしいが、保険向けアラーム証明書 を発行する機能が欠けている
実際のビジネスでは、これがないと保険料の割引や損失補償が受けられない
結局のところ、技術よりも 規制・コンプライアンス のほうが大きな障壁だ
このシステムが Frigate と比べてどうなのか気になる
単なるNVR上のレイヤーなのか、それともモーション検知録画まで行うのか知りたい
BLINK/RINGカメラの映像をローカルに保存して 継続的メモリ として活用できる
冗談のように聞こえるが、AIのSは Security を意味する
将来は トークンがデータ通信量のように 売買され、日常的な消費財になるかもしれない