- Olmo 3 は、モデルの最終成果だけでなく 開発プロセス全体(model flow) を公開し、データ・コード・チェックポイントまで完全なトレーサビリティを提供
- 7B と 32B パラメータ規模の Base、Think、Instruct、RL Zero の4モデルで構成され、推論・対話・強化学習 など多様な研究目的に活用可能
- Dolma 3 と Dolci データセットを基盤に、Web・コード・数学・科学など約 9.3兆トークン 規模の透明な学習データを公開
- OlmoTrace ツールにより、モデルの出力がどの学習データに由来するかをリアルタイムで追跡可能で、透明性と信頼性を強化
- 完全なオープンソース公開により、誰でもモデルの特定段階に介入・修正・再学習でき、検証可能なAI研究エコシステム を構築
Olmo 3 の概要
- Olmo 3 は Allen Institute for AI(Ai2) が公開した次世代オープンソース言語モデルファミリーで、モデルの 開発フロー全体(model flow) を公開することが中核
- モデルフローには、データ収集、前処理、学習、ファインチューニング、強化学習などすべての段階が含まれる
- これにより研究者と開発者は、モデルの内部動作原理を分析し、修正できる
- Olmo 3 は 7B と 32B パラメータ 版で提供され、ノートPCから研究クラスタまでさまざまな環境で実行可能
主なモデル構成
- Olmo 3-Base (7B, 32B)
- 完全公開されたベースモデルで、コード・数学・読解など幅広い領域で 最高水準の性能
- Qwen 2.5、Gemma 3 など同クラスのモデルと競合し、65K トークン の拡張コンテキストをサポート
- Olmo 3-Think (7B, 32B)
- 多段階推論問題を学習した 推論特化モデル で、RL 研究や長期的思考の実験に適する
- 32B モデルは MATH、OMEGA、BigBenchHard などで 同クラス最高水準の性能
- Olmo 3-Instruct (7B)
- 対話・命令実行・ツール利用に最適化されたモデルで、Qwen 2.5・Gemma 3・Llama 3.1 を 同等以上 で上回る
- Olmo 3-RL Zero (7B)
- 強化学習アルゴリズム評価向けに完全公開の経路を提供し、数学・コード・指示追従など 4つのドメインのチェックポイント を含む
性能とベンチマーク
- Olmo 3-Base 32B は Marin 32B、Apertus 70B など完全公開モデルを上回る
- GSM8k(数学)80.5 点、HumanEval(コード)66.5 点など主要ベンチマークで優れた結果
- Olmo 3-Think 32B は Qwen 3 32B と同等または近い性能を示し、HumanEvalPlus・IFEval などで最高スコアを記録
- Olmo 3-Instruct 7B は 安全性(Safety) 項目で 87.3 点を記録し、比較モデル中で最高
アーキテクチャと学習プロセス
- デコーダ専用トランスフォーマー構造 を採用し、3段階の事前学習(基礎→中間→長文)と 3 段階の事後学習(SFT→DPO→RLVR)で構成
- 各段階の チェックポイントを公開 し、研究者は望む時点でモデルをフォークしたり実験したりできる
- Dolma 3(約 9.3 兆トークン)と Dolci データセットにより、学習プロセス全体のデータ透明性を確保
- Dolma 3 Mix(6 兆トークン)、Dolmino(100B トークン)、Longmino(50B トークン)などの詳細構成
- Dolci は SFT・DPO・RLVR の各段階ごとに別個のデータミックスを提供
効率的な学習インフラ
- 最大 1,024 基の H100 GPU で学習し、7B モデル基準で 7.7K トークン/秒 の処理速度
- in-flight weight updates、continuous batching、スレッド改善 などにより、RL 学習効率を 4 倍向上
- Olmo 3 の 32B モデルは 性能とアクセスしやすさのバランスポイント として設定され、研究者が直接ファインチューニング可能
透明性とツールのエコシステム
- OlmoTrace により、モデル出力と学習データのつながりを視覚的に追跡可能
- すべてのデータセットとツールチェーンは オープンソース として公開
- Olmo-core(分散学習フレームワーク)、Open Instruct(事後学習パイプライン)、datamap-rs(データ精製)、duplodocus(重複除去)、OLMES(評価ツールキット)などを含む
- 研究者はモデルの中間推論段階や失敗点を分析し、モデル挙動の原因把握 が可能
活用と意義
- Olmo 3 は研究・教育・応用開発などで 信頼できるAIシステムの構築 を支援
- モデルのあらゆる段階が公開されているため、再現性・検証可能性・共同研究 を促進
- Ai2 は「真のオープンソースAIは、単なるアクセスではなく 信頼と責任、共同発展 を意味する」と明記
- Olmo 3 は 完全な透明性 を通じて、誰もが AI の内部を理解し改善できる 新たなオープン研究パラダイム を提示
1件のコメント
Hacker Newsの意見
こうした透明性がなければ、一般の人々が大規模LLMベースのシステムを理解したり制御したりする方法はないと思う
結局、Big Techや権威主義者、あるいはAI自体が勝手に振る舞う危険がある
第三者機関が監査を行い、透明性レポートを提供する仕組みが必要だと思う
こうした試みが繰り返し続けられてほしい
単に重みの公開だけでオープンソースと呼ぶのは誤った慣行だ
本当のオープンソースモデルには、「透明モデル」のような新しい名前が必要だ
しかし私の解釈とタルムード法ではキリンは可で、GPT5.1は私の解釈に同意した
こういう情報はRAGのような検索ベースで持ってくるべきだ
「わからない」と答えるモデルのほうが有用だと思う
小さなモデルはエッジケースを無理に処理しようとする傾向がある
なので、「edge_case」という出口を作ってやるとはるかにうまく動く
こうしたプロンプトハックのコツを集めた中央リポジトリがあればいいのにと思う
モデル応答と一致する学習データ文書を表示するとされている
しかし実際には単なるN-gram一致を探している程度で、追跡性と呼ぶには難しい
結果が質問と無関係な文書から出てきたこともあった
N-gramの説明
その代わり、モデルがどの学習データ片の影響を受けたかを示すものだ
たとえば、複数のモデルが同じジョークや数字を繰り返す理由を追跡できる
7Bは8GB GPU、32Bは24GB GPU向けで、20B級モデルは16GB GPUにちょうど合う
まだ最適サイズを見つけるための実験が進行中だ
個人的には、GPUに拡張可能なVRAMが生まれてほしい
おそらくOpenWebUIのバグだと思う
GPT-OSSのときもそうだったし、今回のOLMoでも似た状況が繰り返されそうだ
7Bは「Hi! I'm Olmo 3…」、32Bは「Hi! I'm Olmo…」と答えた
結局、単なる挨拶ですら哲学的解釈で終わる感じだ
1行目から成人向けサイトのテキストが含まれていて驚いた
パイプライン全体を公開するには、こうしたデータも含める必要がある
ただ、プレビューでこういう部分がすぐ見えないように調整してもよかったかもしれない
ほとんどはオンデバイス推論向けに見えるが、ほかに事例はあるだろうか?
多くの企業がQwen 3のファインチューニングモデルを使っているが、Olmo 32Bへ移行する可能性もある
小さな非LLMより性能が良かった
単純なGoogle検索より速く、ターミナルコマンドやファイル探索、ノート整理までこなす
速度(90tok/s)と低レイテンシのおかげで、細かな作業をずっと効率よく処理できる
一方でSonnet 4.5は遅く、微妙に間違うので実運用には非効率だ
速度も速く(90tok/s)、ほとんどの作業をカバーする
こうした研究は重要だが、**密結合型(dense)**モデルがこの速度に追いつくのは難しい
次のOlmoバージョンでもMoEを導入する予定だ
しかもエスペラントでも自然に会話できた