1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • GitHub のステータスは Open であり、a778c1ec4e21180ee55c3ea016a348e549e75f09 の README 文面には、モデルが Nex-N2-ProQwen3.5-397B-A17B のマージによって作られ、さらにより強力なモデルの On-Policy Distillation を経ており、以前のバージョンでは最終的な distilled model ではなく base merged version が誤ってアップロードされていたと記載
  • 核心的な問題提起は、prefeitura-rio/Rio-3.5-Open-397B が IplanRIO が学習させた original 397B model として提示されていたにもかかわらず、重みが Nex と Qwen の約 0.6/0.4 の直接的な要素ごとのマージであり、独自学習の証拠がないという点
  • ハードコードされた 「You are Rio」システムプロンプトを取り除き、rio-397b に 120 件のアイデンティティ質問を送った結果、Nex 応答 79.2% (95/120)Nex-AGI 応答 73.3% (88/120)Rio 応答 0.0% (0/120) だったという測定結果
  • プロンプト除去状態の応答例には “I am Nex, from Nex-AGI” や “Nex-AGI is a large-model ecosystem alliance”、そして “Shanghai Innovation Institute” が含まれており、これらの文言が Nex identity data の組織説明をほぼそのまま再現していたという事例
  • 重み分析では (Rio − Qwen) = α × (Nex − Qwen) の関係をテンソルごとに測定し、cos_fit が独立モデルでは ≈ 0、マージでは ≈ 1 になるという基準で collinearity を比較する方法を採用
  • 測定値は routed experts で α = 0.571 ± 0.0016cos_fit = 0.993lm_headα = 0.574cos_fit = 0.991、attention で α ≈ 0.585cos_fit ≈ 0.986、linear-attention projections で α ≈ 0.586cos_fit ≈ 0.984 という数値
  • README の修正共有後、00INDEX はその credit が 1 時間前に更新されたものを指すのかと問い返し、yhcc は翌日にモデルがアップロードされるか見ようという反応
  • 公的資金の有無は別の争点へと発展し、あるコメントは「No public funds were used」と書かれた X リンクを共有し、別のコメントは市長の発言に関する X リンクを提示、その後の引用画像には「no public money was spent on this model training」という文言が含まれていた

1件のコメント

 
GN⁺ 4 시간 전
Hacker Newsの意見
  • 関係者ではないが、起きたことはこう見える: 1) 公式モデルは Qwen 397Bベース だと主張しており、Nexも同じベースモデルなので、Nex Proを最初から公開しなかった可能性が高い 2) 改善は重みのマージに オンポリシー蒸留 を加えて得られたはずだが、アップロードされたモデルには蒸留がまったくなく、それで混乱が生じた
    3) このモデルは2日前にRedditへ投稿した以外に特に宣伝されておらず、週末にブラジルのワールドカップ初戦と重なって自然に広まった。リオ市長が無料の露出を活用したのは確かだが、研究陣と一緒にやったわけではなかった
    4) 単に2つのモデルをマージしただけなら、Qwen 397Bベースとして公開し、SwiReasoning論文まで言及しながら、Nexだけ隠す理由はなさそうだ
    5) いずれにせよ、正しいモデルをアップロードすればこの主張は簡単に検証できる

    • 2番関連では https://news.ycombinator.com/item?id=48529544 がある
    • Rio de Janeiro独自のLLM という見出しをHNで目にする日が来るとは本当に思っていなかったので、こんなことが起きたこと自体に驚いている
    • ベースモデルを別の研究所のファインチューニング済みモデルとマージしたのなら、改善はその別モデルの ファインチューニング済み重み の一部から来ていた可能性がある
      本当により高性能なモデルを「誤って」アップロードできなかっただけなら、今ごろは正しいファイルを上げられていたはずだ
    • ワールドカップデビューというのが何を意味するのかわからない。ブラジルはすでに5回優勝していなかったか?
    • 私の理解では 蒸留はまったく行われておらず、すべての重みはQwenとNexの60/40の要素ごとの平均だ
      Rioの請負業者が主張するような独自の事後訓練をしていたなら、これが可能なのか疑わしい: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • 「Rioのすべての重みテンソルは、数千標準偏差レベルでNexとQwenの0.6/0.4混合と一致しており、60層とネットワークの全構成要素にわたってそうだ。他のファインチューニングではこの補間は説明できない」という部分を見ると、最近の ディープラーニングモデルの頑健性 には驚かされる
    すべての重みを単純に線形結合したのに性能が壊れず、むしろ向上したという話だ

    • いくつかの ベンチマーク では良くなったと言える
      結局はつまみをあれこれ回して、ベンチマークが一度でも改善した結果が出たらリリースするというゲームだ。HuggingFaceには特定のテストでより良いとされるファインチューニングモデルやキメラモデルが多いが、別の用途で使うとたいてい悪化する
      検閲解除用に改変されたモデルでもこういうことはよく起こる。以前は検閲されていた出力を出させることには成功するが、全体的な出力品質は下がる
    • これが可能なのは、Nex自体が Qwen3.5のファインチューニング版 だからだ: https://huggingface.co/nex-agi/Nex-N2-Pro
      異なる事前学習を経た2つのLLMにはこの方法は通用しない気がする。仮に可能だとしても、内部活性化の形状、次元、エキスパート数、トークン語彙が正確に一致していなければならず、現実にはファインチューニングや学術実験以外ではほとんど起こりにくい
    • これは 線形モード接続性 と呼ばれ、ほぼすべての大規模モデルで機能するように見える
      あまりにうまくいくので、多くの場合は訓練過程の明示的な一部になっている。複数の訓練ブランチを作り、それらをマージしてから訓練を続けるといった形だ
      なぜこれほどうまくいくのかは、まだ理解されていない
    • よく知られたアイデアではある: https://arxiv.org/abs/2203.05482
      それでも、こんなに単純な方法が機能するのはなお驚きだ
    • あの重みやより小さなモデルに適用すると、Fableのようなものよりはるかに優れた 知能シミュレーション を作れる「秘密」の調整セットがあるのかもしれない、という発想は興味深い
  • リオデジャネイロ市政府がIT企業IplanRIOを通じて Rio-3.5-Open-397B を公開し、独自開発したQwen3.5ファインチューニングモデルとして、同種の公開モデルをベンチマークで上回ると紹介していた
    リンク先のイシューでは、実際には約1週間前に公開されたNex-N2を含む Nex-N2 Pro約60% + Qwen3.5-397B-A17B約40% の重みマージだと見ている

    • こうした モデルマージ が可能だとは知らなかった。純粋にソフトウェアの観点では当然可能だが、効果がある点は驚きだ
    • 問題はQwenの出典表記が欠けていたことではなく、Nex-N2 Proに言及しなかったこと なのか?
    • RioがLLMに時間を使っているのなら、世界最高水準のITインフラとソフトウェアをすでに備えているはずだ
      税金の無駄に見える
  • 誰かがきちんと出典を明かさずに他人の仕事から利益を得ているなんて、そんなことがあるとは!

    • これは他の 公開重みモデル をベースにした公開重みモデルだ
      論争の核心は、結果を改善する事後訓練を行ったと主張して公開した点にある。実際には、主張どおりの事後訓練済みモデルではなかったことが明らかになった
      今のHuggingFaceページにはモデルマージと書かれているが、以前はなかった。彼らは誤って別のモデルをHuggingFaceに上げてしまい、すぐ本物のモデルを公開すると主張しようとしている
      要するに、2つの公開重みモデルをつなぎ合わせて、チームが驚くべき事後訓練の成果を上げたと主張できると思っていたが、他の研究者たちが事後訓練がないことを見抜けるほど賢いとは考えていなかった、ということだ
    • 重要なのは出典表記ではなく、研究所の能力について嘘をつくこと
    • 政府や政府請負業者が、実際には何もしていないのに多くの仕事をしたと語ることをどう見るべきか気になる
    • これは 税金で行われた純然たる詐欺 だ。他に何を期待できるというのか
    • 「彼らの仕事」と言うには、まず元のコンテンツ制作者たちが99.99%をやり、その次に米国企業がそれを束ねて最先端のLLMにし、「彼ら」はその米国モデルをベースに自分たちのモデルを作る「作業」をしただけだ
      実際の製品に投入された作業の0.00001%をやった、という意味ならそうだろう
      Linuxディストリビューションをフォークしてテーマとフォントを少し足し、その後で誰かがそのディストリビューションをさらにフォークして別のテーマを追加したことに文句を言うのに近い
  • マージモデルを公開せずに「自社開発」としてリブランディングするパターンは懸念される
    オープンソースAI開発への信頼を損なうため、モデル公開にはより良い出所追跡と透明性の基準が必要だ

  • モデルマージがどう行われるのか、説明や資料リンクがあるとよい
    実際に重みを数学的にマージするのか、それとも蒸留のような方式なのか気になる。記事の内容どおり訓練がまったくなかったのなら、蒸留ではなさそうだ

    • 出発点としてはこの文書がよい: https://huggingface.co/docs/peft/developer_guides/model_merg...
      一般にマージとは、異なるモデルの重みを直接数学的に混ぜ合わせる手法を指す。約2年前に大きな人気を集め、ランキングにはいわゆるFrankenmodelが多数登場した
      個人的には、マージは「abliteration」のようなものと同じカテゴリだと見ている。従来の訓練/チューニングループなしで、モデルの重みを外科的に修正する手法だ。この分野に関心があるなら、Maxime Labonneをフォローする価値がある
    • 読むべきものはあまりない
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      つまり、位置ごとに異なるモデルの重みを線形結合しているだけだ
  • そもそもモデルを作ろうと試みたこと自体に驚く
    それでも、市役所のIT部門にこうしたことを試す度胸があったのは、前向きな兆候かもしれない

    • マージとファインチューニングは、多少資金を投じられる個人でもできるレベルなので、地方自治体でも十分可能だ
    • 削除されたコメントの仮説のように、政府に巨大なLLM訓練予算を提案して資金の大半を懐に入れ、横領を正当化するために安価なマージモデルを公開した、というほうがもっともらしい
  • 「そうですね、Steve(Jobs)、私の考えでは、これはむしろ、私たち2人ともXeroxという金持ちの隣人がいて、私がその家に入ってテレビを盗もうとしたら、あなたがすでに盗んでいたと分かった、という状況に近いです。」
    — Bill Gates

    • その引用の前半のほうがもっと面白い: 「Bill Gatesがどういうわけか1人で現れ、Apple社員10人に囲まれていた。… SteveはBillに、なぜ契約を破ったのかと怒鳴り始めた。」
      結末はさらに興味深い: 「Appleは1988年にMicrosoftを相手取って大規模な著作権訴訟を起こしたが、最終的には技術的な理由で敗訴した。裁判官は、Appleが1985年11月にMacユーザーインターフェースについて恒久ライセンスをMicrosoftに不注意に与えたと判断した。」
      MicrosoftがAppleのGUIを盗んだのではなく、Appleが渡してしまったというわけだ
    • これが本物の引用ならいいのに。実に強烈だ