Moondream 3プレビュー: 最先端級の推論を革新的な速度で実現
(moondream.ai)- Moondream 3は9B MoE構造と2Bアクティブパラメータを採用し、最先端のビジュアル推論性能と高速で効率的な推論速度を同時に達成
- このモデルは実世界のビジョンタスクに特化したアーキテクチャ、学習のしやすさ、高速性、低コストを重視して設計されている
- 幅広い物体検出、ポインティング、構造化出力、OCRなど多様な現実応用分野で強力な性能を示す
- 32kトークンのコンテキスト長をサポートし、複雑な質問応答の処理能力を大幅に強化
- 初期ベンチマークでは既存の大規模モデルと比べて応答速度と効率性で優位性を示している
紹介と主要目標
- Moondream 3は、9B Mixture-of-Experts(MoE)構造と2Bアクティブパラメータを基盤とする新しいビジョン言語モデル
- 既存モデルと比べて最先端の視覚推論能力と非常に高速でコスト効率の高い推論性能の両立を目指す
- 実世界の問題解決のため、次の4つの中核分野に注力
- ビジュアル推論: 小規模モデルでありながら、実質的な能力の犠牲なく実世界タスクで優れた力を発揮することを目的とする
- 学習容易性: 医用画像読影、群衆内の異常行動検知など、専門的なビジョンタスク向けに容易なファインチューニングを重視
- 速度: リアルタイム処理が求められるビジョンAI応用(製品分類、ドローンベースの監視など)で高い速度を支援
- 低コスト: 大量画像処理環境を考慮し、大規模導入時でも運用コストの最小化を追求
- 9B MoEモデルでありながら2Bアクティブパラメータのみを動作させることで、高速かつ低コストなリアルタイム推論の可能性を確保
- Reinforcement Learningを活用して学習効率を高め、複雑な環境でも高い適応力を発揮
- 従来の2kから32kへコンテキスト長を大きく拡張し、複雑な文脈処理能力の課題を改善
Moondream 3の実例
-
物体検出 (Object Detection)
- Moondream 3は単純なラベル分類を超え、複雑なクエリ理解と状況に応じた物体検出が可能
- Frontierモデルと比較した場合、物体検出およびポインティングのような本質的機能で差別化された性能を提供
- 例1: "紫の靴下を履いたランナー" の検出
- 例2: "数量入力" UI要素の検出
-
ポインティング(指示機能)
- Moondream 3は画像内の特定の物体を精密に**指し示す(ポインティング)**機能を標準搭載
- 例3: "ボトル" オブジェクトのポインティング
- 例4: "パスタに最も適した調理器具" の選択
- Moondream 3は画像内の特定の物体を精密に**指し示す(ポインティング)**機能を標準搭載
-
構造化出力 (Structured Output)
- 32kコンテキスト長により複雑な構造の出力生成能力が向上し、最小限のプロンプトでJSONなどデータ化された結果を返せる
- 例5: そり犬情報について、dog_id、fur_color、harness_color項目のJSON配列を生成
- 32kコンテキスト長により複雑な構造の出力生成能力が向上し、最小限のプロンプトでJSONなどデータ化された結果を返せる
-
OCR (光学文字認識)
- 従来比でOCR性能が大幅に向上し、現実世界の多様な応用に活用可能
- 非常に小さな文字には一部限界があるものの、表など構造化情報の抽出では高い精度を示す
- 例6: 化学反応テーブルをMarkdown表へ変換
ベンチマーク
- Moondream 3はさまざまなベンチマークで先頭クラスのVLMに匹敵する性能を示す
- ただし、Moondream 3は応答速度の面で大規模モデルに対する実質的な優位性を継続的に実証中
- 今後、より完全なベンチマーク結果と推論時間の比較も公開予定
Moondream 3技術ノート
- 64人のExpertsのうち、各トークンごとに8人が活性化される細粒度の疎Mixture-of-Expertsモデル
- Moondream 2(2B Dense)からのdrop upcycling初期化手法を適用
- 実際の学習で32kトークンの完全なコンテキスト長をサポート
- 長いコンテキストサンプルを事前学習に混合し、追加のコンテキスト拡張段階なしで効果的に適用
- 学習中の温度スケーリングおよび構造化アテンション調整により長文脈理解を強化
- 論理的推論と非論理的説明の2モードをサポートし、とくに**画像ベース推論(grounding)**に特化
- 強化学習(RL)ベースの訓練を通じて、視覚推論の例示依存性と適応力を段階的に向上
- ロードバランシング、ルーター直交損失などによりトークンごとの専門化を誘導し、その後のポストトレーニング段階で安定性を補完
- LSE抑制、温度チューニングなどアテンション構成要素の改善により、正確性と明瞭性を向上
結論と今後の計画
- 今回のプレビューは未最適化の推論コードにより速度が遅い可能性があり、現在もモデルの追加訓練を進行中
- 今後の正式版では性能、ベンチマーク、推論速度などが大幅に改善される見込み
- 量子化版、distilledスモール版などさまざまな派生モデルの制作計画を含む
- Moondream PlaygroundとHuggingFaceで利用可能で、フィードバックや質問はDiscordで受け付けている
参考: Frontierモデルは本質的な物体検出をサポートしていないため、比較のためにテンプレートプロンプトを使用
1件のコメント
Hacker Newsのコメント
2025-01-09版のタグ以降、発表されている性能向上はあまり感じられていない。以後のリリースではrecallは良くなったが、precisionが大きく落ちているようで残念だ。
こうした問題をもっと上手く解決するには、MoondreamのようなVision-Languageモデルがclass confidenceまで報告してくれるとよいと思う。
専用の物体検出APIがある点もとても気に入っている。他のモデルやラッパーでは見たことがない。
Moondream 3の推論最適化の結果に期待している。チームにお祝いを伝えたい。
創業者のVikはXでフォローする価値がある。
ただ、ビッグ3研究所の結果を見ると、ClaudeとOpenAIがあまりにできていないのに驚いた。
GeminiはMoondreamより劣るが、それでも唯一実用的と言えるレベルだ。
ここまで性能差が大きいとは思っていなかった。
ChatGPTはずっと間違え続け、Claudeはダイスの上面が隠れていて読めないと言うばかりだった(実際には隠れていない)。
AnthropicやOpenAIなどは、こういう技術をぜひプラットフォームに取り込みたいはずだ。
作った人たちは豊かになるべきだし、大きな組織のリーチと組み合わされれば、LLMのビジュアル活用ははるかに実用的になるだろう。
自分もbounding boxの自動化にはGeminiを好んで使っていたが、9Bモデルがそれに勝つなら非常に楽しみだ。
Moondream 2はApache 2ライセンスだったが、3プレビューはBSLになっているようで、ライセンス変更が恒久的なものなのか気になる。
本当に速くて正確で、3にも期待している。
5,000回の無料リクエストはあるが、実サービスに接続する前に価格が妥当か確認することが最優先で必要だ。
推論コストをさらに下げるために最適化を進めており、最高の価格を提供できるよう準備している。
リリース情報を早く知りたければ、Xの @moondreamai をフォローしてもよい。
2Bパラメータだけをアクティブにしながら8Bモデル級の性能を維持する点は、エッジデバイス展開に大きな変化をもたらし得る。
本番環境でレイテンシが重要なビジョンモデルの導入経験が多いが、このようなsparse activationがあれば、大型Vision-Languageモデルの推論コストによる導入障壁をかなり下げられそうだ。
チャート理解機能も文書自動化ワークフロー向けの期待ポイントだ。
ほかの画像品質や照明条件でもモデルの一貫性をテストした人がいるのか気になる。
こうした条件では、小型モデルのほうがフラッグシップモデルより苦戦しがちなことが多い。
コンピュータ/ブラウザ制御用途で使ってみた人がいるのか気になるし、グラフやチャートをどれくらいうまく扱えるのかも知りたい。
最終リリース前にagent環境でエンドツーエンドに動作するよう追加学習も試している。
このためcontext長も伸ばした。
チャート理解にはさまざまなタイプがあるが、かなり良い。
ブログではChartQAベンチマークを公開しており、GPT5*と同程度で、Gemini 2.5 Flashよりわずかに良い。
具体的には、MoEが推論時のアクティベーションに与える影響と、レイテンシ面での実質的な意味について、もう少し説明を聞きたい。
KVキャッシュを含めると、32GB RAMのCPU構成が最も安価で、それなりに速いはずだ。
アクティブパラメータ数が少ないので、CPUでも性能は悪くない。