5 ポイント 投稿者 GN⁺ 2025-11-22 | 1件のコメント | WhatsAppで共有
  • Olmo 3 は、モデルの最終成果だけでなく 開発プロセス全体(model flow) を公開し、データ・コード・チェックポイントまで完全なトレーサビリティを提供
  • 7B と 32B パラメータ規模の Base、Think、Instruct、RL Zero の4モデルで構成され、推論・対話・強化学習 など多様な研究目的に活用可能
  • Dolma 3Dolci データセットを基盤に、Web・コード・数学・科学など約 9.3兆トークン 規模の透明な学習データを公開
  • OlmoTrace ツールにより、モデルの出力がどの学習データに由来するかをリアルタイムで追跡可能で、透明性と信頼性を強化
  • 完全なオープンソース公開により、誰でもモデルの特定段階に介入・修正・再学習でき、検証可能なAI研究エコシステム を構築

Olmo 3 の概要

  • Olmo 3 は Allen Institute for AI(Ai2) が公開した次世代オープンソース言語モデルファミリーで、モデルの 開発フロー全体(model flow) を公開することが中核
    • モデルフローには、データ収集、前処理、学習、ファインチューニング、強化学習などすべての段階が含まれる
    • これにより研究者と開発者は、モデルの内部動作原理を分析し、修正できる
  • Olmo 3 は 7B と 32B パラメータ 版で提供され、ノートPCから研究クラスタまでさまざまな環境で実行可能

主なモデル構成

  • Olmo 3-Base (7B, 32B)
    • 完全公開されたベースモデルで、コード・数学・読解など幅広い領域で 最高水準の性能
    • Qwen 2.5、Gemma 3 など同クラスのモデルと競合し、65K トークン の拡張コンテキストをサポート
  • Olmo 3-Think (7B, 32B)
    • 多段階推論問題を学習した 推論特化モデル で、RL 研究や長期的思考の実験に適する
    • 32B モデルは MATH、OMEGA、BigBenchHard などで 同クラス最高水準の性能
  • Olmo 3-Instruct (7B)
    • 対話・命令実行・ツール利用に最適化されたモデルで、Qwen 2.5・Gemma 3・Llama 3.1 を 同等以上 で上回る
  • Olmo 3-RL Zero (7B)
    • 強化学習アルゴリズム評価向けに完全公開の経路を提供し、数学・コード・指示追従など 4つのドメインのチェックポイント を含む

性能とベンチマーク

  • Olmo 3-Base 32B は Marin 32B、Apertus 70B など完全公開モデルを上回る
    • GSM8k(数学)80.5 点、HumanEval(コード)66.5 点など主要ベンチマークで優れた結果
  • Olmo 3-Think 32B は Qwen 3 32B と同等または近い性能を示し、HumanEvalPlus・IFEval などで最高スコアを記録
  • Olmo 3-Instruct 7B は 安全性(Safety) 項目で 87.3 点を記録し、比較モデル中で最高

アーキテクチャと学習プロセス

  • デコーダ専用トランスフォーマー構造 を採用し、3段階の事前学習(基礎→中間→長文)と 3 段階の事後学習(SFT→DPO→RLVR)で構成
  • 各段階の チェックポイントを公開 し、研究者は望む時点でモデルをフォークしたり実験したりできる
  • Dolma 3(約 9.3 兆トークン)と Dolci データセットにより、学習プロセス全体のデータ透明性を確保
    • Dolma 3 Mix(6 兆トークン)、Dolmino(100B トークン)、Longmino(50B トークン)などの詳細構成
    • Dolci は SFT・DPO・RLVR の各段階ごとに別個のデータミックスを提供

効率的な学習インフラ

  • 最大 1,024 基の H100 GPU で学習し、7B モデル基準で 7.7K トークン/秒 の処理速度
  • in-flight weight updatescontinuous batchingスレッド改善 などにより、RL 学習効率を 4 倍向上
  • Olmo 3 の 32B モデルは 性能とアクセスしやすさのバランスポイント として設定され、研究者が直接ファインチューニング可能

透明性とツールのエコシステム

  • OlmoTrace により、モデル出力と学習データのつながりを視覚的に追跡可能
  • すべてのデータセットとツールチェーンは オープンソース として公開
    • Olmo-core(分散学習フレームワーク)、Open Instruct(事後学習パイプライン)、datamap-rs(データ精製)、duplodocus(重複除去)、OLMES(評価ツールキット)などを含む
  • 研究者はモデルの中間推論段階や失敗点を分析し、モデル挙動の原因把握 が可能

活用と意義

  • Olmo 3 は研究・教育・応用開発などで 信頼できるAIシステムの構築 を支援
  • モデルのあらゆる段階が公開されているため、再現性・検証可能性・共同研究 を促進
  • Ai2 は「真のオープンソースAIは、単なるアクセスではなく 信頼と責任、共同発展 を意味する」と明記
  • Olmo 3 は 完全な透明性 を通じて、誰もが AI の内部を理解し改善できる 新たなオープン研究パラダイム を提示

1件のコメント

 
GN⁺ 2025-11-22
Hacker Newsの意見
  • 私が考えるAIの未来は、推論ステップが完全に追跡可能なシステムだ
    こうした透明性がなければ、一般の人々が大規模LLMベースのシステムを理解したり制御したりする方法はないと思う
    結局、Big Techや権威主義者、あるいはAI自体が勝手に振る舞う危険がある
    • だからこそ、多くの人がこうしたアプローチ自体をなくしたがっている点は興味深い
    • 少なくとも、各AIモデルがどの学習データを使ったのかは知るべきだ
      第三者機関が監査を行い、透明性レポートを提供する仕組みが必要だと思う
    • 透明性は良いが、応答を調整可能にすることは大きなUI/UX課題
      こうした試みが繰り返し続けられてほしい
  • 「オープンソースAI」という用語は、すでにマーケティングによって歪められている感じがする
    単に重みの公開だけでオープンソースと呼ぶのは誤った慣行だ
    本当のオープンソースモデルには、「透明モデル」のような新しい名前が必要だ
  • キリンは**コーシャ(kosher)**な食べ物かと聞いたら、モデルは「違う」と答えた
    しかし私の解釈とタルムード法ではキリンは可で、GPT5.1は私の解釈に同意した
    • モデルがこうした宗教的な細部を暗記しているのは奇妙だ
      こういう情報はRAGのような検索ベースで持ってくるべきだ
      「わからない」と答えるモデルのほうが有用だと思う
    • 何度か再試行したのか、temperaturetop_pの値をどう設定したのか気になる
    • 実際、こうした質問がもはや公共財の基準にはなりえない点は興味深い
  • 最近、私の主要なワークフローをOpenAIからローカルモデルに移しつつある
    小さなモデルはエッジケースを無理に処理しようとする傾向がある
    なので、「edge_case」という出口を作ってやるとはるかにうまく動く
    こうしたプロンプトハックのコツを集めた中央リポジトリがあればいいのにと思う
    • 「edge_case」が構造化出力スキーマの**キー(key)**なのか気になる
    • Open WebUILibreChatのようなフロントエンドを使っているのか、それとも直接呼び出しているのか気になる
  • AllenAI Playgroundで「Show OlmoTrace」を押してみたが、
    モデル応答と一致する学習データ文書を表示するとされている
    しかし実際には単なるN-gram一致を探している程度で、追跡性と呼ぶには難しい
    結果が質問と無関係な文書から出てきたこともあった
    N-gramの説明
    • Olmoの研究者として言うと、OlmoTraceの目的は応答を特定の文書に帰属させることではない
      その代わり、モデルがどの学習データ片の影響を受けたかを示すものだ
      たとえば、複数のモデルが同じジョークや数字を繰り返す理由を追跡できる
  • モデルサイズは7B、20B、32Bの3つのラインアップが理想的だと思う
    7Bは8GB GPU、32Bは24GB GPU向けで、20B級モデルは16GB GPUにちょうど合う
    • もちろんアーキテクチャ次第だ
      まだ最適サイズを見つけるための実験が進行中だ
      個人的には、GPUに拡張可能なVRAMが生まれてほしい
  • 7Bモデルに「hi, who are u」と聞いたら、内部で文を解析している途中で止まった
    おそらくOpenWebUIのバグだと思う
    • 新しいモデルが出るたびに、未対応のソフトウェアでテストする事例が多い
      GPT-OSSのときもそうだったし、今回のOLMoでも似た状況が繰り返されそうだ
    • 私が直接プレイグラウンドで試したところ、
      7Bは「Hi! I'm Olmo 3…」、32Bは「Hi! I'm Olmo…」と答えた
    • Ai2のポストトレーニングチーム研究者だが、どこでテストしたのか気になる
    • 「good morning」を過剰に分析するジョークを思い出す
      結局、単なる挨拶ですら哲学的解釈で終わる感じだ
    • completion token制限がかかっていないか確認することを勧める
  • Dolma3データセットHugging Faceで見たが、
    1行目から成人向けサイトのテキストが含まれていて驚いた
    • まだキュレーション前の段階である可能性が高い
      パイプライン全体を公開するには、こうしたデータも含める必要がある
      ただ、プレビューでこういう部分がすぐ見えないように調整してもよかったかもしれない
    • どうせエロティックフィクションはこうしたモデルの主要なユースケースの1つでもある
  • 小さなモデルの実際の使いどころが気になる
    ほとんどはオンデバイス推論向けに見えるが、ほかに事例はあるだろうか?
    • Ai2の研究者として言うと、7Bはコンシューマー向けGPU用ローカルモデルで、32Bはより多様な応用が可能だ
      多くの企業がQwen 3のファインチューニングモデルを使っているが、Olmo 32Bへ移行する可能性もある
    • 私たちのチームはドメイン特化分類器として7Bモデルをファインチューニングしている
      小さな非LLMより性能が良かった
    • 私はQwen3-30B-VLをVRAM上に常駐させている
      単純なGoogle検索より速く、ターミナルコマンドファイル探索ノート整理までこなす
      速度(90tok/s)と低レイテンシのおかげで、細かな作業をずっと効率よく処理できる
      一方でSonnet 4.5は遅く、微妙に間違うので実運用には非効率だ
  • Qwen3-30B-VLは日常用途としてほぼ完璧だ
    速度も速く(90tok/s)、ほとんどの作業をカバーする
    こうした研究は重要だが、**密結合型(dense)**モデルがこの速度に追いつくのは難しい
    • Olmo開発者として言うと、Qwenモデルが速い理由はMoE構造のおかげだ
      次のOlmoバージョンでもMoEを導入する予定だ
    • 新しいMacBookで動かしてみたら遅かったが、その代わりQwen2.5:14Bは即座にフィードバックを返した
      しかもエスペラントでも自然に会話できた
    • Qwen3-30B-VLがより「賢い」理由は、単なるサイズよりもアーキテクチャの違いによるものなのか気になる