生成モデルの現状

xguru · 2025-01-06T10:21:01+09:00

2024年の1年間で、テキスト生成と画像生成の両分野で大きな進展があった OpenAIが独走していた初期とは異なり、昨年末にはAnthropic、DeepSeek、Qwenなど多様な研究所が競争的に戦線を拡大している 2024〜2025年の研究動向を整理し、今後期待される分野について簡単にまとめる > 「クローズドソースだけで築き上げた堀は長続きしない > OpenAIもまた、他者の追撃を防ぐことはできないだろう > 結局のところ、自分たちの組織と文化を育て、イノベーションを起こせる人材を育成すること、それこそが真の堀である」 > ─ Liang Wenfeng, CEO of DeepSeek # Language 大規模言語モデル(LLM)が現在のAIブームの中心であり、最も多くの研究と投資が行われている 2024年には、モデル性能と新しいスケーリングパラダイムの両方で大きな進展があった Architecture 新しいアーキテクチャ(Mamba、xLSTMなど)も試みられたが、少なくとも現時点ではdecoder-only Transformerが主流になる見通しである Dense Transformer Llama 3が代表例で、Metaはvanilla Dense Transformerを極限まで最適化している Noam Transformerと呼ばれる形態(Decoder-Only、RMSNorm、Group Query Attention、GLU、RoPEなど)が事実上の標準として定着している DeepSeekが出したMulti Latent Attention(MLA)のような方式がさらに注目を集めるとみられ、RoPEを置き換えたり修正したりする手法が登場する可能性もある Mixture-of-Experts GPT-4が巨大なMoEだという噂が広まり、2024年に再び存在感を増したオープンソース領域ではMistralのMixtral、DeepSeek v2・v3などが代表的である MoEにはサービングが容易ではないという欠点があるが、DeepSeekが積極的に研究を進めている今後はルーティングメカニズム、各レイヤーごとのMoE適用方式、専門家の解釈可能性などをめぐって多方面の研究が期待される Tokenization Byte Pair Encodingを置き換える革新が必要だという意見は多いが、まだ大きな問題はないため使われ続けている MetaがCoTをlatent spaceで処理したり(byte-based)、Transformerをbytes単位で学習させたりする2つの試みを提案し、関心を集めた Byte Latent Transformer(BLT)では、バイト入力処理のためにEncoder/Decoder構造を用いているバイトデコーダの品質がボトルネックにならないかという懸念がある Reasoning 2024年下半期には、モデルの数学・科学・コーディングにおける推論能力が急速に向上した(o1、o3、DeepSeek r1など) これは「inference-time compute」という新しいスケーリングパラダイムと関係しているモデルが非常に長いChain of Thoughtを生成し、その過程を自己検証しながら活用する方式である OpenAIのo1、o3がどのように作られたのかは非公開だが、「Let’s Verify Step by Step」論文などのRLアプローチを活用した可能性が高い今後はAnthropicや他のラボからも同様のreasonerが登場すると予想される STEM領域に偏った方式から離れ、より広範なドメイン(創作的な文章執筆など)にも適用されるかどうかに関心が集まっている Distillation o1の公開時にOpenAIがChain of Thoughtを公開しなかったのは、モデル出力で再学習する事例(DeepSeek v3など)が性能向上に大きく寄与するためだという推測がある DeepSeek v3はreasoner特有の長いCoTをそのまま再現しているわけではないが、内部的にモードを分けて必要な状況で推論しているように見える小規模モデル(o1-miniなど)が大規模モデルの性能にどこまで近づけるのか、あるいは内部に秘匿された蒸留手法があるのかどうかも興味深い研究テーマである # Image 画像分野では複数の中小研究所が参入し、イノベーションが急速に進んでいる現在の主要モデル(Flux、Stable Diffusion 3、MidJourney、Soraなど)はDiffusion Transformerベースで、Flow Matchingフレームワークが主流である Architecture Diffusion Transformerに適応的正規化やMM-DIT構造などを組み合わせた形がよく使われているテキストエンコーダをCLIPの代わりに、より小型化したLLMへ置き換えようとする試みが2025年に増えるとみられる Framework 従来の確率的アプローチではなく、Flow Matching方式を好む流れが形成されている AutoRegressiveモデルが再び浮上する可能性もあり、Visual Autoregressive Modelling論文が大きな注目を集めた xAIが公開した画像生成手法もオートレグレッシブと推定されるが、具体的な理由は分かっていない # Multimodality OpenAIやAnthropicなどではすでに画像をモデルに入力する機能を提供していたが、2024年上半期にはよりオープンな形のマルチモーダル研究が活発になった Visual Language Models Qwen、PaliGemmaなどさまざまなVLMが登場し、画像キャプション生成や文書解析に活用されている Vision Transformerと事前学習済みLLMを接続する構造が標準として定着した 2025年には、こうしたVLMがOmni-Modelsへ統合される見通しである Omni-Modal Models OpenAIはGPT-4oで画像生成まで示した事例があるが、完全公開は行われていない Chameleonなどでは画像トークナイザ+デトークナイザを利用した初期融合モデルが試みられている非テキスト出力までdiscrete tokenとして扱う方式については賛否の議論がある Llama 4が早くからオムニモーダルとして訓練中だという噂もあり、期待を集めている # Agents and Human-AI Interfaces 「AI Agent」の定義は曖昧だが、LLMにツール使用権限を与えて目標を自律的に達成させる方式を、ここではひとまずエージェントと呼ぶ SWE-Bench基準では、2025年末にはコードのデバッグや機能実装を一定水準で自動化できると予想されるただし、エンジニアを代替する水準に達するにはまだ早く、旅行日程や情報検索のように誤り許容範囲が広い領域から導入される見込みである Cursorのようなエディタ型UIのほうが、エージェント活用には適している可能性があるエージェント呼び出しはトークンコストが大きいため、完全自律エージェントが費用対効果に優れるかどうかは未知数である # 2025 AIの発展が非常に速いという言い方には慣れているが、実際にはその速度を見積もることすら難しいほど変化が大きいこの記事では、テキストと画像を中心とした現状と2025年に期待される要素だけを簡単に扱った。カバーできなかった領域のうち注目に値する分野としては: 学習最適化 (Muon、NanoGPT speedruns) 動画モデル (一貫性・推論速度の問題解決) 量子化 (1ビット量子化、FP8以下の精度など) モデル解釈可能性の研究評価・ベンチマーク (SWE-Benchのような実作業ベースの評価が増えることを期待) 2025年にさらに多くの進展があることを期待したい

(nrehiew.github.io)

20 ポイント投稿者 xguru 2025-01-06 | 2件のコメント | WhatsAppで共有

2024年の1年間で、テキスト生成と画像生成の両分野で大きな進展があった
OpenAIが独走していた初期とは異なり、昨年末にはAnthropic、DeepSeek、Qwenなど多様な研究所が競争的に戦線を拡大している
2024〜2025年の研究動向を整理し、今後期待される分野について簡単にまとめる
> 「クローズドソースだけで築き上げた堀は長続きしない
> OpenAIもまた、他者の追撃を防ぐことはできないだろう
> 結局のところ、自分たちの組織と文化を育て、イノベーションを起こせる人材を育成すること、それこそが真の堀である」
> ─ Liang Wenfeng, CEO of DeepSeek

# Language

大規模言語モデル(LLM)が現在のAIブームの中心であり、最も多くの研究と投資が行われている
2024年には、モデル性能と新しいスケーリングパラダイムの両方で大きな進展があった
Architecture
- 新しいアーキテクチャ(Mamba、xLSTMなど)も試みられたが、少なくとも現時点ではdecoder-only Transformerが主流になる見通しである
- Dense Transformer
  - Llama 3が代表例で、Metaはvanilla Dense Transformerを極限まで最適化している
  - Noam Transformerと呼ばれる形態(Decoder-Only、RMSNorm、Group Query Attention、GLU、RoPEなど)が事実上の標準として定着している
  - DeepSeekが出したMulti Latent Attention(MLA)のような方式がさらに注目を集めるとみられ、RoPEを置き換えたり修正したりする手法が登場する可能性もある
- Mixture-of-Experts
  - GPT-4が巨大なMoEだという噂が広まり、2024年に再び存在感を増した
  - オープンソース領域ではMistralのMixtral、DeepSeek v2・v3などが代表的である
  - MoEにはサービングが容易ではないという欠点があるが、DeepSeekが積極的に研究を進めている
  - 今後はルーティングメカニズム、各レイヤーごとのMoE適用方式、専門家の解釈可能性などをめぐって多方面の研究が期待される
Tokenization
- Byte Pair Encodingを置き換える革新が必要だという意見は多いが、まだ大きな問題はないため使われ続けている
- MetaがCoTをlatent spaceで処理したり(byte-based)、Transformerをbytes単位で学習させたりする2つの試みを提案し、関心を集めた
- Byte Latent Transformer(BLT)では、バイト入力処理のためにEncoder/Decoder構造を用いている
- バイトデコーダの品質がボトルネックにならないかという懸念がある
Reasoning
- 2024年下半期には、モデルの数学・科学・コーディングにおける推論能力が急速に向上した(o1、o3、DeepSeek r1など)
- これは「inference-time compute」という新しいスケーリングパラダイムと関係している
  - モデルが非常に長いChain of Thoughtを生成し、その過程を自己検証しながら活用する方式である
- OpenAIのo1、o3がどのように作られたのかは非公開だが、「Let’s Verify Step by Step」論文などのRLアプローチを活用した可能性が高い
- 今後はAnthropicや他のラボからも同様のreasonerが登場すると予想される
- STEM領域に偏った方式から離れ、より広範なドメイン(創作的な文章執筆など)にも適用されるかどうかに関心が集まっている
Distillation
- o1の公開時にOpenAIがChain of Thoughtを公開しなかったのは、モデル出力で再学習する事例(DeepSeek v3など)が性能向上に大きく寄与するためだという推測がある
- DeepSeek v3はreasoner特有の長いCoTをそのまま再現しているわけではないが、内部的にモードを分けて必要な状況で推論しているように見える
- 小規模モデル(o1-miniなど)が大規模モデルの性能にどこまで近づけるのか、あるいは内部に秘匿された蒸留手法があるのかどうかも興味深い研究テーマである

# Image

画像分野では複数の中小研究所が参入し、イノベーションが急速に進んでいる
現在の主要モデル(Flux、Stable Diffusion 3、MidJourney、Soraなど)はDiffusion Transformerベースで、Flow Matchingフレームワークが主流である
Architecture
- Diffusion Transformerに適応的正規化やMM-DIT構造などを組み合わせた形がよく使われている
- テキストエンコーダをCLIPの代わりに、より小型化したLLMへ置き換えようとする試みが2025年に増えるとみられる
Framework
- 従来の確率的アプローチではなく、Flow Matching方式を好む流れが形成されている
- AutoRegressiveモデルが再び浮上する可能性もあり、Visual Autoregressive Modelling論文が大きな注目を集めた
- xAIが公開した画像生成手法もオートレグレッシブと推定されるが、具体的な理由は分かっていない

# Multimodality

OpenAIやAnthropicなどではすでに画像をモデルに入力する機能を提供していたが、2024年上半期にはよりオープンな形のマルチモーダル研究が活発になった
Visual Language Models
- Qwen、PaliGemmaなどさまざまなVLMが登場し、画像キャプション生成や文書解析に活用されている
- Vision Transformerと事前学習済みLLMを接続する構造が標準として定着した
- 2025年には、こうしたVLMがOmni-Modelsへ統合される見通しである
Omni-Modal Models
- OpenAIはGPT-4oで画像生成まで示した事例があるが、完全公開は行われていない
- Chameleonなどでは画像トークナイザ+デトークナイザを利用した初期融合モデルが試みられている
- 非テキスト出力までdiscrete tokenとして扱う方式については賛否の議論がある
- Llama 4が早くからオムニモーダルとして訓練中だという噂もあり、期待を集めている

# Agents and Human-AI Interfaces

「AI Agent」の定義は曖昧だが、LLMにツール使用権限を与えて目標を自律的に達成させる方式を、ここではひとまずエージェントと呼ぶ
SWE-Bench基準では、2025年末にはコードのデバッグや機能実装を一定水準で自動化できると予想される
ただし、エンジニアを代替する水準に達するにはまだ早く、旅行日程や情報検索のように誤り許容範囲が広い領域から導入される見込みである
Cursorのようなエディタ型UIのほうが、エージェント活用には適している可能性がある
エージェント呼び出しはトークンコストが大きいため、完全自律エージェントが費用対効果に優れるかどうかは未知数である

# 2025

AIの発展が非常に速いという言い方には慣れているが、実際にはその速度を見積もることすら難しいほど変化が大きい
この記事では、テキストと画像を中心とした現状と2025年に期待される要素だけを簡単に扱った。カバーできなかった領域のうち注目に値する分野としては:
- 学習最適化 (Muon、NanoGPT speedruns)
- 動画モデル (一貫性・推論速度の問題解決)
- 量子化 (1ビット量子化、FP8以下の精度など)
- モデル解釈可能性の研究
- 評価・ベンチマーク (SWE-Benchのような実作業ベースの評価が増えることを期待)
2025年にさらに多くの進展があることを期待したい

2件のコメント

lonzino 2025-01-06

ありがとうございます

zkdlfrlwl2 2025-01-06

簡潔に整理していただき、ありがとうございます