Moebius: 0.2B画像インペインティングモデルで10B級の性能を達成
(hustvl.github.io)- 10B規模の産業用ファウンデーションモデルが主導してきた高品質な画像インペインティングを、パラメータを2%未満に圧縮しながらも同等またはそれ以上の品質で実現した軽量スペシャリストモデル
- 0.22B(226M)パラメータで動作し、11.9B規模のFLUX.1-Fill-Devと比べて15倍以上高速な推論速度を達成
- diffusionバックボーンを再構成するLocal-λ Mix Interaction(LλMI)ブロックにより、空間コンテキストとグローバルな意味情報を固定サイズの線形行列へ圧縮
- latent space内でのみ動作する適応型マルチ粒度 distillation戦略により、大規模teacherモデルの表現力を軽量モデルへ転移
- むやみに規模を拡大するのではなく、タスクを明確に定義したとき、より賢く、軽く、速いモデルが可能であることを示すtask-specific specialistアプローチ
背景と問題設定
- 10B規模の産業用ファウンデーションモデルが画像インペインティングの限界を押し上げてきた一方、膨大な計算コストにより実運用での展開は大きく制約されている
- タスク特化型スペシャリストモデルの構築は有望な代替案だが、極端な構造圧縮は深刻な**表現ボトルネック(representation bottleneck)**を引き起こす
- これを克服するため、高効率な軽量インペインティングフレームワークMoebiusを提案
Method — 全体パイプライン
- **Latent Diffusion Model(LDM)フレームワークにLatent Categories Guidance(LCG)**を組み合わせた構造を採用
- denoising U-Netを、提案するLλMIブロックで体系的に再構成し、極端なアーキテクチャ効率を確保
- 学習段階では適応型マルチ粒度 distillation戦略を適用し、軽量specialistを大規模teacherと整合させることで、極端な構造圧縮に伴う容量損失を緩和
主な成果(Highlights)
-
極端なパラメータ効率(< 2%)
- 0.22B(226M)パラメータのみで動作し、大規模モデル**FLUX.1-Fill-Dev(11.9B)**の2%未満の規模
- 重い計算が必須という通念を破り、コンシューマー向けおよびエッジデバイスでも高品質なインペインティングが可能
-
15倍の推論速度向上(26ms/step)
- 単一GPUでstepあたり26.01msという非常に低い推論レイテンシを達成
- 最適化されたサンプリング段階と組み合わせることで、10B級モデルと比べて全体ランタイムを15倍以上高速化
-
10B級のインペインティング品質
- サイズ縮小が表現力の低下を意味しないことを実証
- アーキテクチャとdistillationの相乗最適化により、複雑なテクスチャや顔の自然さなど一部のシナリオでは、10B級SOTAモデル(FLUX.1-Fill-Dev、SD3.5 Large-Inpainting)を上回る
- 自然画像(Places2)と人物画像(CelebA-HQ、FFHQ)を含む6つのベンチマークで検証
-
シナジーに基づく中核的イノベーション
- アーキテクチャ設計(LλMI Block): self-attentionとcross-attentionを再構成し、空間コンテキストとグローバルな意味情報を固定サイズの線形行列へ圧縮することで、二次(quadratic)計算負荷を回避
- 適応型マルチ粒度 distillation: teacherモデルPixelHackerの表現力をlatent space内だけで転移し、高コストなpixel-spaceデコーディングを回避
- ミクロな中間特徴からマクロなdiffusion軌跡まで、マルチ粒度の監督を整合させつつ、gradient normベースの適応型損失重み付け機構により学習を動的にバランス
- 最適なシナジーバランス: 圧縮構造とdistillationの相互制約および上限を体系的に探索
- アーキテクチャ-distillationのシナジー境界をマッピングし、0.22BのMoebius(student)が表現飽和なしにPixelHacker(teacher)の意味推論能力を最大限吸収できるよう保証
-
肥大化した汎用モデルよりタスク特化型スペシャリスト
- 「タスクが明確に定義されれば、モデルはより賢く、軽く、速くなれるのか」という根本的な問いに答えるアプローチ
- 実用的な画像インペインティングとAIオブジェクト除去を、パラメータ肥大化から解放する高度最適化specialistとして機能
評価と比較
- 自然画像(Places2)と人物画像(CelebA-HQ、FFHQ)の両方で広範な実験を実施
- 生成品質の面で、10B級の産業用汎用モデルFLUX.1-Fill-Devと同等またはそれを上回る結果を確認
- パラメータ2%未満(0.22B vs 11.9B)の規模で15倍以上の推論時間短縮を達成し、高忠実度インペインティングの新たな効率基準を提示
1件のコメント
Hacker Newsの反応
ONNXで動くようにした(Claude Opus 4.8のおかげで)、そして今はモデル全体がブラウザ内で動くインタラクティブなデモがある。ダウンロードは約1.3GB: https://simonw.github.io/moebius-web/
コードはこちら: https://github.com/simonw/moebius-web
Claude Codeの記録: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
ブログでもっと詳しくまとめている: https://simonwillison.net/2026/Jun/22/porting-moebius/
少し使ってみたが、0.2Bモデルとしては非常に впечат的だったものの、10Bモデルと肩を並べると言われると納得しづらい
自然画像ではかなりうまく動いていたが、インペインティングされた領域が周囲より明らかに滑らかすぎて、新しいオブジェクトには非常に弱かった。出力も512x512に制限されていて実用性が下がる
数年前にクライアント向けのインペインティングプロジェクトをやった。コンサートプロモーター向けのバナー広告をインペインティングして、さまざまな掲載サイズの広告を簡単に作れるようにする仕事で、有名歌手何人かのクリスマステーマ広告を担当した
いちばん妙だったのは、インペインティングツールが画像に変な人物を追加してきた時だった。歌手はキラキラした装飾と赤色で飾られていたのに、モデルがシルクハットをかぶった意地悪そうな老人を追加した。「不気味な老人を追加」ボタンを押した覚えはない
当時のバックエンドはStable Diffusionで、Amazonを含む複数のモデルホスティングサービスを渡り歩いたが、入力画像の要件がそれぞれ違っていて非常に複雑だった。あるところは200x60バナーのような比率を扱えず失敗し、別のところは入力前にリサイズが必要で、最初から低解像度の画像を入れることになった。ゴミを入れればゴミが出る
結局、かなり多くの事前制作作業が必要になり、クライアントは自分の試作品を実際には使わなかった
イギリスには、クリスマス行事で人々が浮かれすぎないよう背景にScroogeのような人物を立たせておくべきだという条例がきっとあるのだろう
顔のインペインティングですら複数のツールを渡り歩いてようやく何とかなる作業で、それ以外をインペインティングするのはほぼ不可能だった。こうしたモデルは、オブジェクトをシーンの中に自然に収めるのも特に苦手だった。雑なネックレスやベルト程度なら何とかなるが、新しいオブジェクトをシーンに入れた瞬間、際限なくさまざまな形で失敗する
解像度も512x512ではるかにうまく動き、それより大きく外れると問題が増える
バナー広告をインペインティングしようとしていたなら、ひどく歪んだ可能性が高い。そうしたモデルはフォントを扱えず、ピクセル単位で正確に転写するのも苦手だ。当時現実的だった方法は、バナー広告を手動で入れて境界部分だけAIで直すことだったと思う。もちろんある程度の美的感覚は必要だ
画像を2枚入れるだけでモデルが勝手にやってくれると期待していたなら、試みとしては大胆だったが不可能な仕事だった
高品質モデルで低解像度画像を作ると、実際にはもっと大きな画像の一部を切り出して出力しているように感じる。何時間も実験した実感としてそうで、大きなモデルで何かの物体を中央に置こうとしても、なかなか中央に見えてこない。自分のGPUが耐えられる範囲にも限界がある
これを使ったデモスペースがいくつかある。これがいちばん良さそうで、直接マスクも塗れるが、自分が試したすべての画像では失敗した: https://huggingface.co/spaces/multimodalart/Moebius
今まさに積極的に触っている最中なので、一時的に壊れることがある :)
無料CPUで動かしているので、画像1枚に80秒くらいかかる
ブラウザ内ですべて実行され、あらゆるファインチューニングモデルを試せる小さなアプリを作った: https://inpaintlab.com/
インペインティングが何なのかわからない。コメントではみんなこの用語を知っているようだが、リンク先のページでは説明を見つけられなかった
基本的には、モデルが紫色でない領域の文脈を見て、紫色の領域に何が最も合うかを判断し、画像の一部を描き直す。物体除去によく使われるが、例にあるように他の作業にも使える
あまり良くない。インペインティングされた領域が、いつもそうであるように、自然写真の細かい高周波な質感に比べて滑らかすぎる
サムネイルから何かを消す用途にかろうじて使える程度だ
数年前のPhotoshopの基本的な修復ツールでも同程度には処理できる
漫画翻訳向けにこういうモデルがあればいいのにと思う。今のアニメや漫画向けの軽量インペインティングモデルはLaMaが事実上の標準のようだが、もう数年前のモデルなので改善の余地がありそうだ
このモデルを再学習したりファインチューニングしたりできるのか気になる。「専門家」を作ると言っているが、その専門家がさまざまなキャラクター翻訳をもっとよく理解できるのではないかと思う
こういうのが役に立つAIだ。可能になるユースケースが本当に多い
でも、驚異的なダスト除去や完璧なシーン分割のために誰かが10億ドルを投資することはないだろう
その代わり、クラウドにアップロードして、巨大なマルチモーダル・フロンティアモデルに自分のやりたいことだけを丁寧にお願いしなければならない構図になっている
よくわからない。どこで試せるのか、それともただの宣伝なのかがわからない
修正: 見つけた気がする
https://huggingface.co/hustvl/Moebius