1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • スイスのAIエコシステムが ソブリンAI を見据え、独自の基盤モデル Apertus を公開し、EPFL・ETH Zurich・CSCS の協力体制を前面に打ち出した
  • 中核となる差別化要素は オープンウェイト・オープンデータ・オープンサイエンス であり、学習データとコード、重み、方法論、アラインメント原則まで文書化して再現可能性を強調している
  • 規制と信頼の面では EU AI Act の要件を考慮し、オプトアウトの尊重・PII の除去・記憶の抑制といった条件を含む
  • 性能については 8B と 70B パラメータ 規模で同クラス上位のオープンモデルと競争可能だとし、当初から 1000 以上の言語で学習されている
  • Swisscom が 戦略的パートナー として参加し、今後のリリースや研究、コミュニティのニュースはニュースレターで継続的に発信される予定

開発主体と公開範囲

  • Apertus は Swiss AI Initiative が開発した基盤モデル
  • 公開範囲には 学習データ、コード、重み、方法論、アラインメント原則が含まれる
  • 公開要素は文書化され、再現可能 な形を志向している
  • Apertus は「AI における Open は Source と同じ」というフレーズで、公開モデルとしての性格を強調している

規制対応とモデル特性

  • モデルは EU AI Act の要件を満たすように構築されている
    • オプトアウトを尊重する
    • PII を除去する
    • 記憶を防ぐ
  • 8B と 70B パラメータ の同等規模で、上位オープンモデルと競争可能な性能を掲げる
  • 多言語対応は初期段階から含まれており、1000 以上の言語 で学習されている

パートナーシップとコミュニティニュース

  • Swisscom は Swiss AI Initiative の戦略的パートナー
  • ニュースレターでは Apertus のリリース、チームの研究、コミュニティニュースが提供される

1件のコメント

 
GN⁺ 4 시간 전
Hacker Newsの意見
  • 完全公開のLLMとしては、Allen AIのOLMo 3.1とMBZUAIのK2 Think V2もあり、どちらも学習パイプライン全体とデータセットを公開している
    Nvidia Nemotronも学習ソースを公開したモデルだが、データセットの一部は独自仕様である
    lambdaのコメントを引用すると、Nemotronモデルは概してOlmoとK2 Think V2より強く(Artificial Analysisベンチマーク基準)、データセットもかなり重なっている。複数のデータセットは同じソースからフィルタリングだけを変えて作られており、OlmoとK2 Think V2も一部Nemotronのデータセットを使っている
    Nemotronは現代的でかなり有能なLLMであり、122bモデルも大半のベンチマークでDeepseek R1(671bモデル)より強く、最近では550b Ultraも登場した
    https://news.ycombinator.com/item?id=48492439

    • Allen AIは十分に注目されていない。生成AIは本来こういう形で作られるべきだったと思う
      最前線の企業がこのアプローチを取っていたなら、出発はずっと遅くなっていただろうが、2035年には今よりはるかに先へ進んでいた気がする。その代わり今は、社会の多くがAIの失敗を望む状態になってしまっている
    • Nemotronをもう一度使ってみようかと思う。昨日OpenRouterで最新モデルを使ってみたがいまひとつで、StepFunよりも悪かった
  • アイデアは気に入っているし、米国以外の誰もが技術主権を考えなければならない必要性も高まっている。米国はデータ保管先として安全ではない場所になってしまったからだ
    ただ、Apertusは委員会方式のスピードで動いている感じがして、競争力のあるモデルを出してくるとは期待していない。少なくとも現在のモデルと競うのは難しそうで、1年前のモデルなら競争可能かもしれないが、まだそこにも達していないように見える

    • 「米国はデータ保管先として安全ではない場所になった」という点には同意するが、なぜ他国の方がより良いデータ避難先になるのかは気になる
      個人的にはEUのデータ保護アプローチは好ましいが、データを「安全に」守ってくれる他の地域や保護措置を念頭に置いているのか気になる
  • Linuxのたとえはここでも当てはまらないと思う。これはそれよりもっと大きく、商用AI研究所とそのビジネスモデルに対する直接的な脅威だ
    これらの研究所はここ数年、複数の基盤論文を何度も使い回しており、終わりが近づいている
    今後はオープンソース、公開データ、公開レシピのモデルが中心になり、いつかは推論だけでなく学習もBitTorrent方式でクラウドソーシングされるかもしれない
    最後に、中国のモデル(GLM、Deepseek、MiMax)も本当によく動作し、そうしたモデルを使うユーザーはOpenAI/Anthropic/Geminiがまったく恋しくないと言うだろう。だとすれば、このような公開モデルがあれば中国モデルも特に恋しくならないという十分な根拠になる

  • 複数言語に注力していると主張するモデルにしては、「XをY言語でどう言うか」や「Y言語で動詞Xをどう活用するか」といった単純な質問にかなり不安定だ
    存在しない単語を次々と幻覚し、訂正しても新しい嘘を作り出す

    • おそらく各単語のまとまりがどの言語を指すのか分かっていない可能性が高い
      言語ラベル付きの学習データを大量に入れていたとは思えない
      「XをY言語でどう言うか」は、XをY言語で言うこととは別の課題だ
  • 彼らの指示モデルは昨年のLlama3.1のファインチューニングのように見える。新しいモデルに進展があるのか気になる
    主権AIに対する最後の希望は中国の公開モデルの方にある

    • 主権AIは単一モデルだけを使う問題ではない。作業に合ったモデルを使い、答えを出す前に複数のモデルが一緒に解法を議論できるようにすることだ
      こういう形でモデルを組み合わせたいなら、https://github.com/deepbluedynamics/nemesis8を見るとよい
  • Apretusプロジェクトで最も影響力の大きい成果物は、間違いなく人材だ。Dominique Paul(https://www.thisiscrispin.com/)の印象的な一文を引用すると、多くの人が見落としているのは、このチームが他のほとんどすべてのLLMプロバイダーのように同じことを4番目にやるチームではなく、自分たちの過去の経験から学べたチームでもないという点だ
    このチームがもう一度モデル学習を行えば、コストは4分の1に減り、結果はずっと良くなるはずだと思う

  • ライセンスはかなり興味深いが、長期的に誰がこの方式に従うのかは分からない
    学習データとApertus LLMは、識別可能な個人を直接または間接的に指し示す情報(個人情報)を含んだり生成したりする可能性がある。ユーザーは適用されるデータ保護法に基づき、独立した処理者として個人情報を処理する
    SNAIはApertus LLMの開発者として、受理したデータ保護削除要請を反映したハッシュ値ファイルを定期的にダウンロード提供し、ユーザーはこれを出力フィルターとして適用できる。これによりモデル出力に含まれる個人情報を除去でき、モデル公開後は6か月ごとにSNAIからこの出力フィルターをダウンロードして適用することを強く推奨している

  • このモデルの以前のバージョンはかなりひどかったが、著作権法を順守すると主張していた。だが自分で試してみたところそれも事実ではなく、だから完全に役に立たないと思う

    • 次の条件が本当である限り、このリリースは「密室で」学習された大半のモデルより、科学全体に対してはるかに大きな貢献になる
      完全公開モデル: 公開重み + 公開データ + すべてのデータと学習レシピを含む完全な学習詳細
    • finewebを使っているが、これはCommon Crawl由来であり、Common Crawlはウェブページを無許可でクロールしてきたものだ
    • どうテストしたのか気になる。説明してもらえる? 著作権の対象であるはずの断片的な事実の集合があって、そのモデルが somehow 文字どおり作品全体を生成するか確認したということ?
  • 世界各国が資金を出す主権AIをコミュニティがどう見ているのか気になる
    なぜ「主権」を強調するのだろう? 公開されていればそれで十分ではないか?