NISTによるDeepSeek評価は、科学を装った政治的攻撃だ

(erichartford.com)

2 ポイント投稿者 GN⁺ 2025-10-07 | 1件のコメント | WhatsAppで共有

NISTが2025年9月に発表したDeepSeek AIモデル評価レポートは、中立的な技術評価ではなく政治的目的の文書であり、実際のセキュリティ脅威に関する証拠もないまま、中国発のオープンソースAIを抑え込もうとする意図を含んでいる
レポートはDeepSeekモデルのバックドア、スパイウェア、データ流出の証拠をまったく示せておらず、単に安全チューニングが不十分で脱獄しやすいこと、中国政府の視点を反映していることだけを指摘している
DeepSeekはApache 2.0ライセンスでモデル重み、アーキテクチャ、学習方法論を完全公開し、オープンAI研究に大きく貢献したが、米国政府はこれを「敵対的AI」と位置づけている
NISTはローカル実行とAPI利用を意図的に混同し、他のオープンソースモデルとの比較や米国製モデルのバイアステストを省略するなど、偏った方法論を用いている
このレポートは、オープンソースAIの競争力を示したDeepSeekを抑制し、米国AI企業の独占的地位を守るための産業政策の一環であり、科学的中立性より商業的・戦略的利益を優先している

NISTによるDeepSeek評価レポートの本質

NISTの2025年9月30日付DeepSeekレポートは、中立的な技術評価ではなく政治的攻撃文書
- バックドア、スパイウェア、データ流出に関する証拠はまったくない
- 米国政府が恐怖と誤情報を利用して、オープンサイエンス、オープンリサーチ、オープンソースを妨げようとする試み
- 企業権力の保護と支配の維持のために、人類への貢献を政治と虚偽で攻撃している
レポート公表後、オンラインでパニックが発生
- DeepSeekの重みが汚染されているという主張
- 中国がモデルを通じてスパイ活動をしているという主張
- ダウンロード自体がセキュリティリスクだという主張
- これらはすべて虚偽

DeepSeekの実際の成果

競争力のあるAIモデルの開発
- OpenAIやAnthropicよりはるかに少ない予算で最先端級の性能を達成
- 完璧ではないが、予算に対して印象的な成果
Apache 2.0ライセンスで完全公開
- モデル重み
- アーキテクチャ
- 学習方法論
- 研究論文
誰でもその成果を再現し、最先端規模のモデルをローカルで実行できるようにした
- すべてをゼロから再構築できるよう支援
- 近年のオープンAI研究への最大級の貢献の一つ
米国政府の反応: 「敵対的AI」という烙印を押し、スパイ活動を示唆

NISTの中核的なごまかし戦略

3つのシナリオを意図的に混同
- シナリオA: DeepSeekアプリ/APIを使うと、プロンプトが中国のサーバーへ送信される（実際のデータ主権の問題）
- シナリオB: オープン重みをダウンロードしてローカル実行する場合、データは端末外へ送信されない
- シナリオC: OpenRouter、Fireworks、Chutesのような信頼できる第三者サービスでホスティングされる場合、インフラとプライバシー管理はホスティング事業者次第
NISTはこのまったく異なる状況を意図的に一括りにしている
- ローカルダウンロードまで集計したうえで「国家安全保障上のリスク」と警告
- 基本的な技術知識があれば、誰でもこれがミスリーディングだと分かる
この混同が、レポート全体にわたるミスリーディングなフレーミングの土台になっている

NISTが実際に見つけたもの

扇情的な表現を取り除けば残るもの
1. DeepSeekモデルは米国の安全チューニング済みモデルより脱獄させやすい
2. ときどき中国政府の視点を反映する
3. 特定のベンチマークでわずかに性能が低い
4. トークン当たりコストが高いと主張している（方法論は未提示）
それだけである
- 悪意ある挙動の証拠はない
- データ流出の証拠もない
- 「自分たちが気に入らない形でプロンプトに応答する」以外に、モデルが悪意ある行為をする証拠はない
脱獄の発見に関する分析
- DeepSeekが安全学習への投資を抑えていたため（リソースの問題）
- NISTは比較のために過去の米国モデルをテストしていない
- 一方でOpenAIのgpt-oss-120bは非常に脱獄しやすい
「中国共産党の物語」の発見に関する分析
- 中国のデータで学習したモデルが中国の視点を反映するのは不思議ではない
- 中国の検閲法の適用を受ける
- これはセキュリティ脆弱性ではない

NISTが行わなかった比較

他のオープンモデルと比較していない
- Llama、Mistral、Falconはどこにいるのか?
- 比較していれば、これはDeepSeek固有の問題ではなく、オープンモデル全般がクローズドモデルより安全レイヤーが少ないことを示していただろう
初期の米国モデルとも比較していない
- 2020年のGPT-3の脱獄脆弱性はどうだったのか?
- この比較はストーリーを弱めるため、行われていない
米国モデルの米国バイアスをテストしていない
- 中国バイアスだけがセキュリティリスクと見なされているようだ
非公開ベンチマークを使用
- 「CAISIが構築した非公開ベンチマーク」により、再現も検証もできない
- これは科学ではなく、アドボカシー研究である

このレポートが実際に語っていること

行間を読めば
1. DeepSeekモデルは洗練度が低い - 開発投資が少ないのだから、粗さがあるのは当然
2. 中国モデルは十分に競争力があり、それが懸念されている - 市場シェアを脅かさなければ、このレポートは存在しなかっただろう
3. 米国はAI支配力の喪失を恐れている - トランプの「AI行動計画」のもとで明示的に依頼された。商務長官の声明も、これが中立的評価ではなく産業政策であることを明確に示している

本当の脅威（ヒント: あなた自身に対するものではない）

DeepSeekが実際に脅かしたもの: 独占
- DeepSeekの本当の罪は、オープンソースが機能することを示したこと
- 何十億ドルものベンチャーキャピタルや非公開APIがなくても強力なモデルを構築できると証明したこと
これが、プレミアム価格でAIアクセスを売る企業を震え上がらせた
- DeepSeekが「ここに重みがあります。自分で実行してください」と言った瞬間、彼らはそれらの企業が依存する経済的な堀を攻撃した
これこそがNISTレポートが存在する理由
- DeepSeekが、オープン性がクローズドシステムと競争できることを証明したから
- 既得権益層はこれを封じなければならない

偽善

NISTの警告 vs 現実
- NIST: DeepSeekモデルはシミュレーション環境で悪意あるプロンプトに応答しうると警告
- 現実: 米国モデルは実際に外部サーバーへ実データを送信している
OpenAIの事例
- ChatGPTの会話を学習に使っていたことを覚えているだろうか?
- 反発を受けて初めてオプトアウトを追加した
比較
- DeepSeek重みのローカル実行 = データ送信ゼロ
- OpenAI APIの利用 = サーバーへの継続的なデータ送信
- どちらがプライバシーリスクなのか?
レポートは「外国AIの採用」に警告を発しながら、米国製であれそうでなかれ、すべてのクラウドAPIが他者のインフラへの信頼を必要とすることは無視している
- ローカルのオープン重みは、どんなクラウドサービスよりも監査可能で安全である
だがそれはメッセージではない。なぜなら、これは決してセキュリティの話ではなかったからだ。ナラティブの統制の話である

オープンソースとオープンサイエンスへの裏切り

オープンソースコミュニティは現代AIの土台を築いた
- Linux、Python、PyTorch、Transformers
- 数十年にわたる協調的な開発が自由に共有されてきた
DeepSeekはその伝統に参加した
- オープンな知識を受け取り、印象的なものを築き、再びコミュニティへ返した
米国機関の反応: 脅威だと呼ぶ
MetaがLlamaを公開したとき、中国が同じことをしたと想像してみてほしい
- Llamaの重みが「脱獄に脆弱」だから監視ツールだと主張する政府報告書を出したとしたら
- 私たちはそれを保護主義、技術的パラノイア、オープン研究への攻撃と呼んだはずだ
しかし、私たちがやると? 「国家安全保障」
オープン研究は普遍的であるべきだ
- 都合の良いときだけオープンサイエンスを擁護することはできない

自分で試せるテスト

私もNISTも信じず、自分で確かめてほしい
DeepSeekの重みをダウンロードする
- huggingface transformers、vLLM、LM Studio、llama.cppを使ってローカルで実行
- ネットワーク監視ツールを開く
観察する
- どこへも送信されるパケットは正確にゼロ
- プロンプトは完全に端末上で処理される
- 恐ろしい「セキュリティ脅威」は何にも接続せず、行列積をしているだけ
自問してほしい: なぜ米国政府はこれについて嘘をつくのか?
「セキュリティ脅威」はモデルにあるのではない。政治にある

実際に心配すべきこと

正当な懸念は存在する
- DeepSeek APIの利用: 機密データをDeepSeekのホスティングサービスに送れば、中国のインフラを通過する。これは外国のクラウド事業者を利用する場合と同じ、現実的なデータ主権の問題
- 脱獄脆弱性: 本番アプリケーションを構築するなら、どのモデルでも脆弱性をテストし、アプリケーション層の安全策を実装すべき。モデルのガードレールだけに依存してはならない。また、推論時にはガードモデル（LlamaGuardやQwen3Guardなど）を使って、プロンプトと応答の両方を分類・フィルタリングせよ
- バイアスと検閲: すべてのモデルは学習データを反映する。どのモデルを使うにせよ、その点を認識しておくべき
これらはエンジニアリング上の課題
- オープンソース（あるいは中国製）モデルを完全に避ける理由にはならない

AIの未来にとっての意味

これは単にDeepSeekの話ではない
- AIがオープンで監査可能なままでいるのか、それとも政府や企業によって囲い込まれるのかという問題だ
問い
- 「オープンソース」を「米国製である場合にのみオープン」と再定義することを許すのか?
- セキュリティ主張に対して実際の証拠を求めるのか、それとも曖昧な示唆を受け入れるのか?
- AIは共有された人類のプロジェクトであり続けるのか、それとも地政学的な兵器になるのか?
DeepSeekは別の道があることを証明した。だからこそ信用を失わせる必要があった

筆者の見解

筆者の背景
- オープンソースモデルをローカルで実行
- 自前のモデルを学習
- 組み合わせ可能なアライメントとユーザーの自由を信じている
- AIは企業や政府のためではなく、ユーザーのための道具であるべきだと考えている
NISTレポートに対する評価
- 中立的な技術評価ではない
- 米国の商業的・戦略的利益を守るために、中国AIモデルの採用を阻むよう設計された政策文書
米国政府による産業振興に対する立場
- 米国政府が米国産業を後押しすること自体が本質的に間違っているわけではない
- だが、それをそのままの名前で呼ぶべきだ
- 保護主義をセキュリティ研究に見せかけるべきではない
- 脅威を捏造すべきではない
- 証拠が示していることについて大衆に嘘をつくべきではない
DeepSeekの貢献
- 私たちに価値ある貴重な贈り物を与えた
- 重みは単なるsafetensorデータにすぎない
- ドライブ上に置かれ、命令どおりに動作する
- 外部へ連絡しない。スパイしない。データを流出させない
結論
- 心配しているなら、それはローカル推論の仕組みを理解していないということ
- 恐怖を煽る言説を信じるなら、うまく操作されたということ
- これはすべて安全の話ではない。権力の話だ - 未来を形作る道具を誰が構築し、共有し、理解するのかという話である

結論

コードと研究はオープンソースであり、監査可能だ。残りはすべて政治である
読者への勧め
- NISTレポートとコードを自分で読んでみてほしい
- 悪意あるコードや監視機能の実際の証拠を探してみてほしい
- 見つからないはずだ。存在しないからだ
そして次の問いを始めてほしい
- なぜオープンソースがあまりにうまく機能すると、それを恐れろと言われるのか?

1件のコメント

GN⁺ 2025-10-07

Hacker Newsのコメント

米国の機関が昔から国境をまたぐ事案を政治的に利用してきたこと自体にはまったく驚かないし、私自身、中国製電子機器に対して常に懐疑的だった。このレポートが虚偽で外国人嫌悪的だという点には同意するが、もし中国がLLMに十分な統制力を持つようになれば、現在であれ将来であれ、何らかの形で巧妙な操作を試みる可能性については依然として疑っている。これは中国に限らず、米国であれどの大国であれ、十分な権力があれば同じことをするだろう。結局のところ、私たちに重要なのは、モデルを継続的に疑い、ベンチマークし、そのモデルが提供者ではなく私たちの必要に合っているかを絶えず監視する姿勢だ
- LLMを通じた中国の巧妙な操作の可能性に言及していたが、具体的にどのようなやり方を想定しているのか気になる
- 政府や政治的影響力がある程度介入するのは当然だ。問題は存在するかどうかではなく、その影響力がどこにどれだけ作用するかだ。このレポートを「虚偽」や「偏っている」と決めつけて切り捨てる態度には意味がない。私たちは複雑な世界で情報をふるいにかけ、分析する必要がある
- 外国製に関する虚偽情報を広めることが解決策ではなく、むしろ人々がオープンソースモデルを求めていることを認識し、自国製の最高品質モデルを公開して、そのモデルが広く使われるようにするほうがよい
- 米国の民主主義について考えを整理すると、米国のリーダーシップはいつでも望む決定を下せる最大限の柔軟性を追求している。民主主義である以上、大衆の支持という幻想を維持する必要があり、政府が特定の見方を植え付けて大衆の思考の一部を掌握することで、どんな決定を下しても一定の支持を確保できる環境を作っている。もし政策が変わったり新たな指導者が現れたりすれば、前任者の誤りにして「以前は悪かったが今は変わった」という形で道徳的な再出発が可能になる。これは権威主義体制では不可能な点だ。たとえばプーチンは戦争の損失を認識しても、政治的正当性を失わないためには戦争を止められない。もしロシアが米国式民主主義だったなら、新しい指導者の選出、撤兵、プーチンへの形式的処罰、そして国際社会での責任免除までを迅速に進められただろう
- こうした機関は国内でも政治的道具として利用されている
みなさんには原文のレポートを先に読み、その後で今回の分析を読んで自分で判断することを勧めたい。クリックを誘う要約に振り回されず、原文を読むことが重要だ
- 原文はこちら: https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf
- 多くの人は原文を読んでいないようだ。レポートで「exfiltration（情報流出）」をどう扱っているかを見るだけでも、エッセイの内容とNISTの原文レポートが異なることは分かる。70ページの技術レポートよりクリックベイトなWebページのほうが注目を集めるのは、最近の人々の注意力が短くなっているせいだ
欧州の大学で研究者やスタッフ向けにLLMをホスティングする立場として、個人的に非常に身につまされる話だ。中国モデルなしでは、私たちが今行っているいくつもの仕事は不可能だっただろう。私から見ると、EUであれどこであれ、中国の研究所がこれほど寛大なライセンスでモデルを公開してくれていることに感謝すべきだ。彼らがいなければ選択肢はひどいものだっただろう。米国製の強力なモデルが必要なら、数億ドル規模のNVIDIAデータセンターを建てるよう勧められ、EUの選択肢でさえ自前のハードウェアでホストしてもライセンス料を払わなければならないが、結局ノウハウも保護されたままだ。それに対してDeepSeekは「秘密のソース」を公開し、私たちのような vLLM のようなオープンソースプロジェクトがより効率的にモデルをホスティングできるよう助けてくれた
実際にレポートを読んでみると、本文の説明とは内容が一致していない
- 興味深いのは、この投稿のコメントでさえ実際の本文内容とは異なることだ。筆者はこれをオープンソースへの攻撃だと繰り返し持っていこうとしているが、コメントのほうはむしろ中国の影響力から生じうる問題にきちんと言及しているように見える
- このブログ記事は非常に誤解を招く内容だ。本文の最初の段落では、NISTレポートに「悪意あるコード、バックドア、データ流出の痕跡はなかった」と強調しているが、これはNISTが実際に主張していないことだ。ブログ記事だけ読めば、NISTが根拠もなくバックドアの存在を主張したかのように見えてしまう
- 私の場合は、実際のレポート内容とかなり一致していると感じた
中国モデルが中傷の対象になっても、私は性能が良くて安いモデルを使って競争優位を確保するつもりだ
- 中傷は結局、刑事処罰へと進む最初の一歩だ
- NISTの記事（原文）には中傷的な表現はまったく見当たらなかった。私の考える「中傷」の定義は、敵対国を悪魔化するプロパガンダだ。もし違うなら、レポートのどこが具体的にそうなのか指摘してほしい。https://www.thefreedictionary.com/demonization 参照
- 性能は劣るのに何倍も高価で、しかも検閲の強いクローズドモデルを人々が擁護する現象は異常だ。中国企業は西側企業のようにベンチマークに執着しておらず、実際に使ってみると Kimi、GLM、Deepseek のようなモデルは英語ベンチマークのスコアが低くても体感品質ははるかに優れていると感じる。特に Kimi はハードウェアに関する質問に対して Gemini や Claude よりずっと詳細かつ正確に答える。これは中国語データの学習をよりうまく活用しているからだと思う
筆者の Eric Hartford は「扇動的な言葉を取り除くべきだ」と言っていたが、レポートを見る限りそうした言葉は見当たらなかった。全体としては乾いていて退屈ですらある文体だ
- むしろブログ記事のほうに、根拠のない扇動的な言葉が非常に多い
- 実際、今回の記事のほうがむしろNISTや米国を狙った「黒色宣伝」に近いと思う。扇動的な言葉も記事のほうにより多く見られる
良い洞察を共有してくれてありがとう。もし筆者が作った uncensored Dolphin モデルを実際に使ったことがある人がいたら、経験を聞いてみたい
- 私の考えを言えば、最良の方法は自分で評価フレームワークを作って実際に使ってみることだ。次善の策は、自分と似た評価を行った外部事例を探すことだ。しかし、自分の基準を確立していないままでは、他人の評価が十分に信頼できるかどうかは分からない。特にMLやAI分野では、HNで行われる議論の質を私は低く評価している。参加者は性急で、シニカルで、派閥化しており、真実をきちんと追求しているようには感じない。それでも私はここに残って議論に貢献したい。常に明確さ、論理、深みのある議論が行われることを願っている。時には https://xkcd.com/386/ のような感じがすることもある
DeepSeekは Nature誌の査読論文も出ているほどで、独立研究者がオープンモデルで指摘したいくつかの問題点を記事でも認めている。そうした点から見て、今回のNIST評価は政治的攻撃に近いと思う。米国の情報機関が技術的利益が生じるたびにそれを監視目的に活用してきたCryptoAG事件や、Huawei論争でも実際には大きな悪意のある証拠が出なかったことと同様に、こうした慣行が不安の根拠になっている。結局、Kimi、Qwen など多様なオープンモデルが存在し、コストと性能が平準化され、各国が人工知能を「地政学的な堀」として囲い込もうとする競争がなくなることが、この分野全体にとって望ましい
中国がDeepSeek以後にはるかに優れたオープンソースモデルを公開している時点で、NISTレポートはすでに一歩遅れているように見える
- DeepSeekは継続的に新バージョンを出している。https://api-docs.deepseek.com/updates 参照
NISTがなぜ性能、コスト、採用率を評価するのか疑問だ。最近公開された米国製モデル（OpenAI GPT-5シリーズ、Anthropic Opus 4 など）と、以前のDeepSeek（R1、R1-0528、V3.1）だけを比較しているが、現在の最新DeepSeek 3.2は非常に高性能だ。自動車が0-60マイルを3秒で走るからといって政府の評価が重要なのではなく、私が実際に運転して判断すべきだ。DeepSeekの「最高セキュリティモデル」が悪意あるリクエストに対する拒否率6%と記述されているが、実際には米国製のGPTモデルも今や何の制限もなく悪用可能だ。今回のレポートはNISTやセキュリティの論評ではなく、米国のプロパガンダ資料にすぎないと思う

NISTによるDeepSeek評価は、科学を装った政治的攻撃だ

NISTによるDeepSeek評価レポートの本質

DeepSeekの実際の成果

NISTの中核的なごまかし戦略

NISTが実際に見つけたもの

NISTが行わなかった比較

このレポートが実際に語っていること

本当の脅威（ヒント: あなた自身に対するものではない）

偽善

オープンソースとオープンサイエンスへの裏切り

自分で試せるテスト

実際に心配すべきこと

AIの未来にとっての意味

筆者の見解

結論

関連記事

1件のコメント

Hacker Newsのコメント