リオデジャネイロの「独自開発」LLM、既存モデルのマージである可能性
(github.com/nex-agi)- GitHub のステータスは Open であり、a778c1ec4e21180ee55c3ea016a348e549e75f09 の README 文面には、モデルが
Nex-N2-ProとQwen3.5-397B-A17Bのマージによって作られ、さらにより強力なモデルの On-Policy Distillation を経ており、以前のバージョンでは最終的な distilled model ではなく base merged version が誤ってアップロードされていたと記載 - 核心的な問題提起は、
prefeitura-rio/Rio-3.5-Open-397Bが IplanRIO が学習させた original 397B model として提示されていたにもかかわらず、重みが Nex と Qwen の約 0.6/0.4 の直接的な要素ごとのマージであり、独自学習の証拠がないという点 - ハードコードされた 「You are Rio」システムプロンプトを取り除き、
rio-397bに 120 件のアイデンティティ質問を送った結果、Nex応答 79.2%(95/120)、Nex-AGI応答 73.3%(88/120)、Rio応答 0.0%(0/120)だったという測定結果 - プロンプト除去状態の応答例には “I am Nex, from Nex-AGI” や “Nex-AGI is a large-model ecosystem alliance”、そして “Shanghai Innovation Institute” が含まれており、これらの文言が Nex identity data の組織説明をほぼそのまま再現していたという事例
- 重み分析では
(Rio − Qwen) = α × (Nex − Qwen)の関係をテンソルごとに測定し、cos_fitが独立モデルでは≈ 0、マージでは≈ 1になるという基準で collinearity を比較する方法を採用 - 測定値は routed experts で
α = 0.571 ± 0.0016、cos_fit = 0.993、lm_headでα = 0.574、cos_fit = 0.991、attention でα ≈ 0.585、cos_fit ≈ 0.986、linear-attention projections でα ≈ 0.586、cos_fit ≈ 0.984という数値 - README の修正共有後、00INDEX はその credit が 1 時間前に更新されたものを指すのかと問い返し、yhcc は翌日にモデルがアップロードされるか見ようという反応
- 公的資金の有無は別の争点へと発展し、あるコメントは「No public funds were used」と書かれた X リンクを共有し、別のコメントは市長の発言に関する X リンクを提示、その後の引用画像には「no public money was spent on this model training」という文言が含まれていた
1件のコメント
Hacker Newsの意見
関係者ではないが、起きたことはこう見える: 1) 公式モデルは Qwen 397Bベース だと主張しており、Nexも同じベースモデルなので、Nex Proを最初から公開しなかった可能性が高い 2) 改善は重みのマージに オンポリシー蒸留 を加えて得られたはずだが、アップロードされたモデルには蒸留がまったくなく、それで混乱が生じた
3) このモデルは2日前にRedditへ投稿した以外に特に宣伝されておらず、週末にブラジルのワールドカップ初戦と重なって自然に広まった。リオ市長が無料の露出を活用したのは確かだが、研究陣と一緒にやったわけではなかった
4) 単に2つのモデルをマージしただけなら、Qwen 397Bベースとして公開し、SwiReasoning論文まで言及しながら、Nexだけ隠す理由はなさそうだ
5) いずれにせよ、正しいモデルをアップロードすればこの主張は簡単に検証できる
本当により高性能なモデルを「誤って」アップロードできなかっただけなら、今ごろは正しいファイルを上げられていたはずだ
Rioの請負業者が主張するような独自の事後訓練をしていたなら、これが可能なのか疑わしい: https://x.com/tenobrus/status/2066243352211996728/photo/1
「Rioのすべての重みテンソルは、数千標準偏差レベルでNexとQwenの0.6/0.4混合と一致しており、60層とネットワークの全構成要素にわたってそうだ。他のファインチューニングではこの補間は説明できない」という部分を見ると、最近の ディープラーニングモデルの頑健性 には驚かされる
すべての重みを単純に線形結合したのに性能が壊れず、むしろ向上したという話だ
結局はつまみをあれこれ回して、ベンチマークが一度でも改善した結果が出たらリリースするというゲームだ。HuggingFaceには特定のテストでより良いとされるファインチューニングモデルやキメラモデルが多いが、別の用途で使うとたいてい悪化する
検閲解除用に改変されたモデルでもこういうことはよく起こる。以前は検閲されていた出力を出させることには成功するが、全体的な出力品質は下がる
異なる事前学習を経た2つのLLMにはこの方法は通用しない気がする。仮に可能だとしても、内部活性化の形状、次元、エキスパート数、トークン語彙が正確に一致していなければならず、現実にはファインチューニングや学術実験以外ではほとんど起こりにくい
あまりにうまくいくので、多くの場合は訓練過程の明示的な一部になっている。複数の訓練ブランチを作り、それらをマージしてから訓練を続けるといった形だ
なぜこれほどうまくいくのかは、まだ理解されていない
それでも、こんなに単純な方法が機能するのはなお驚きだ
リオデジャネイロ市政府がIT企業IplanRIOを通じて Rio-3.5-Open-397B を公開し、独自開発したQwen3.5ファインチューニングモデルとして、同種の公開モデルをベンチマークで上回ると紹介していた
リンク先のイシューでは、実際には約1週間前に公開されたNex-N2を含む Nex-N2 Pro約60% + Qwen3.5-397B-A17B約40% の重みマージだと見ている
税金の無駄に見える
誰かがきちんと出典を明かさずに他人の仕事から利益を得ているなんて、そんなことがあるとは!
論争の核心は、結果を改善する事後訓練を行ったと主張して公開した点にある。実際には、主張どおりの事後訓練済みモデルではなかったことが明らかになった
今のHuggingFaceページにはモデルマージと書かれているが、以前はなかった。彼らは誤って別のモデルをHuggingFaceに上げてしまい、すぐ本物のモデルを公開すると主張しようとしている
要するに、2つの公開重みモデルをつなぎ合わせて、チームが驚くべき事後訓練の成果を上げたと主張できると思っていたが、他の研究者たちが事後訓練がないことを見抜けるほど賢いとは考えていなかった、ということだ
実際の製品に投入された作業の0.00001%をやった、という意味ならそうだろう
Linuxディストリビューションをフォークしてテーマとフォントを少し足し、その後で誰かがそのディストリビューションをさらにフォークして別のテーマを追加したことに文句を言うのに近い
マージモデルを公開せずに「自社開発」としてリブランディングするパターンは懸念される
オープンソースAI開発への信頼を損なうため、モデル公開にはより良い出所追跡と透明性の基準が必要だ
モデルマージがどう行われるのか、説明や資料リンクがあるとよい
実際に重みを数学的にマージするのか、それとも蒸留のような方式なのか気になる。記事の内容どおり訓練がまったくなかったのなら、蒸留ではなさそうだ
一般にマージとは、異なるモデルの重みを直接数学的に混ぜ合わせる手法を指す。約2年前に大きな人気を集め、ランキングにはいわゆるFrankenmodelが多数登場した
個人的には、マージは「abliteration」のようなものと同じカテゴリだと見ている。従来の訓練/チューニングループなしで、モデルの重みを外科的に修正する手法だ。この分野に関心があるなら、Maxime Labonneをフォローする価値がある
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
つまり、位置ごとに異なるモデルの重みを線形結合しているだけだ
そもそもモデルを作ろうと試みたこと自体に驚く
それでも、市役所のIT部門にこうしたことを試す度胸があったのは、前向きな兆候かもしれない
「そうですね、Steve(Jobs)、私の考えでは、これはむしろ、私たち2人ともXeroxという金持ちの隣人がいて、私がその家に入ってテレビを盗もうとしたら、あなたがすでに盗んでいたと分かった、という状況に近いです。」
— Bill Gates
結末はさらに興味深い: 「Appleは1988年にMicrosoftを相手取って大規模な著作権訴訟を起こしたが、最終的には技術的な理由で敗訴した。裁判官は、Appleが1985年11月にMacユーザーインターフェースについて恒久ライセンスをMicrosoftに不注意に与えたと判断した。」
MicrosoftがAppleのGUIを盗んだのではなく、Appleが渡してしまったというわけだ