14 ポイント 投稿者 GN⁺ 2025-07-03 | 1件のコメント | WhatsAppで共有
  • GPT-2、GPT-3、Llama、Mixtral、DeepSeek、Minimax、Hunyuan など主要な大規模言語モデルのパラメータ規模と構造に関する客観的な情報と変遷を整理
  • GPT-2(2019年) は1.3億〜16億パラメータ、GPT-3(2020年) は1,750億(175B)パラメータ、Llama-3.1(2024年) は4,050億(405B)パラメータなど、大規模モデルのサイズは急速に拡大している
  • MoE(Mixture-of-Experts、専門家混合)構造の登場により、GPT-3級以上のモデルがオープンソース/ダウンロード可能になり、代表例としてDeepSeek V3 Base(6,710億)ERNIE-4.5(4,240億)Mixtral-8x22B(1,410億) など多様な超大規模モデルが登場している
  • **Dense(すべてのパラメータを使用)モデルとMoE(一部の専門家パラメータのみを有効化)**モデルの比較は複雑になっており、実質的な「知能」の比較は容易ではない
  • 最近ではマルチモーダル・多言語対応、新しいアーキテクチャ、合成データ活用など、さまざまな発展トレンドが見られる

  • この文書は、ここ数年における大規模言語モデル(LLM)の**基盤モデル(ベースモデル)**の規模変化に関する事実情報を整理したもの
  • チャットボットやアシスタントではなく、テキスト生成エンジンそのもののモデルに焦点を当てている

歴史

  • GPT-2(-medium, -large, -xl)(2019): それぞれ1.37億、3.8億、8.12億、16.1億パラメータ
    • 約40GBのWebTextデータセット(10億トークンと推定)を基に学習
    • 使用されたサイト一覧はdomains.txtで確認可能
  • GPT-3(davinci, davinci-002)(2020): 1,750億パラメータ
    • CommonCrawl、WebText2、Books1・2、Wikipedia など約4,000億トークンのデータで学習
    • 大規模なA100 GPU数千台で数か月間の学習が必要
  • GPT-3.5、GPT-4(2022、2023): アーキテクチャおよびデータに関する公式情報は非公開

Llama

  • Llama はMeta(旧Facebook)が開発した大規模言語モデルシリーズで、オープンソース化と比較的少ないリソースでも活用可能な構造で注目を集めた
  • **モデルサイズ(パラメータ数)**と学習データ、アーキテクチャの進化過程が、LLM(大規模言語モデル)のオープンソーストレンドを牽引した
  • Llama 1(2023)

    • 7B、13B、33B、65B: 70億、130億、330億、650億パラメータを提供
    • 学習データ: 1.4兆(1.4T)トークンの大規模テキスト(Books3、CommonCrawl など)
    • Llama 65Bは当時のオープンモデルとして最大規模だった
    • Books3は著作権をめぐる法制度議論の重要な契機となった大規模データ
    • 特徴
      • 比較的小規模なGPUでも実行可能(65BでもGPU 8枚で動作)
      • オープンウェイト配布により、多様な派生モデルとコミュニティ実験が拡大
  • Llama 2(2023年後半)

    • 公開時点で70億、130億、700億パラメータを提供(7B、13B、70B)
    • 対話型(チャットボット)版も公開され、fine-tuning や RLHF(強化学習)などを支援
    • コミュニティ利用から商用利用まで許可するライセンス(ただし一部制限あり)
  • Llama 3.1(2024)

    • 405B: 4,050億のdense(すべてのパラメータを使用)パラメータ
    • 学習データ: 2.87兆トークン + 8,000億ロングコンテキスト + 4,000万 annealing(高品質コード/数学など追加)→ 合計3.67兆トークン
    • アーキテクチャ
      • Transformerベースで、すべてのパラメータを推論時に同時活用する dense 方式
      • 高品質なコード・数学データの追加により主要ベンチマークのスコアを最大化(annealing)
    • 特徴
      • 大規模 dense モデルの中でダウンロード可能な最新モデル(オープンソース)
      • Metaはデータセット構成を公には明かしておらず、一部の著作権論争データ(Books3 など)を含む可能性がある
      • 一部評価では「アシスタント志向」が強化されており、純粋なテキストエンジンとしての役割とはやや差がある
  • Llama 4(2025)

    • 最大モデル: 2兆(2T)パラメータの MoE(Mixture-of-Experts、専門家混合構造)
      • A288B 16E: アクティブ2.88億パラメータ、16人の専門家、全2兆パラメータのうち一部のみを有効化
    • 状況
      • 2Tモデルは未公開(内部実験用)で、派生/縮小版のみ外部公開(maverick、scout など)
      • 派生モデルは原版に比べて「知能」が低いという評価が多い
      • 公開過程でベンチマークスコア操作疑惑(lmarena事件)などにより信頼性が低下し、チーム解体説も出ている
    • MoE構造の特徴
      • 一部の専門家パラメータのみを有効化することで、dense モデルより同じパラメータ数あたりの計算効率に優れる
      • 超大規模モデルでも実運用が可能(分散環境・少ないリソースで活用可能)
  • Llamaの意義と影響

    • Llamaシリーズはオープンソース生態系の拡大と大規模言語モデルの大衆化を牽引した
    • Llama-3.1 405Bの公開を契機に、GPT-3/4級大規模モデルのダウンロード/実験が現実化
    • MoE構造の導入により超大規模モデルの学習・配布が活発化(DeepSeek、Mixtral などにも影響)
    • ただし、最近のモデルはベンチマーク最適化(annealing)やアシスタント志向の強化などにより、「純粋な言語モデル」としての特性変化が議論されている

The desert – オープンソース大規模モデルの空白期と変化

  • GPT-3水準(1,750億パラメータ級)以上の大規模言語モデルをオープンソースで入手できなかった長い空白期を指す
  • この時期(2020〜2023年中頃)は、70B以下の llama など比較的小さなモデルしか公開されておらず、
    • 一部プロジェクトでは**小型のLlama(例: 70B)**にGPT-3が生成した合成データでファインチューニングし、性能向上を試みた
    • しかし、AIが作ったテキストを再びAIの学習に用いると、データ品質低下(データ「degeneration」)問題が生じうる
  • GPT-3級のオープンウェイトモデルが長期間不在だった理由として、
    • 学習コスト(数千〜数万GPU規模のインフラ)、データ確保、大規模パラメータ構造の配布難易度などが複合的に作用した
  • **Llama-3.1 405B(4,050億 dense パラメータ)**モデルが公開され、本格的に超大規模モデルのオープンソース化が始まった
    • その直前(2023年12月)にはMistralのMixtral-8x7B(MoE構造、総560億パラメータ)、2024年4月にはMixtral-8x22B(総1,410億、アクティブ390億パラメータ)など
      • MoE(専門家混合)アーキテクチャを活用し、GPT-3級大規模モデルを比較的少ないリソースで学習・配布可能にした
  • MoE構造は複数の専門家ネットワーク(Expert)を持ち、1回の推論でその一部のみを有効化する
    • これにより dense 構造より少ないリソース(メモリ・計算)で大規模モデルの運用が可能
    • GPU台数とメモリ制約の観点から、MoEは大規模オープンモデル普及に決定的な役割を果たした

最新のMoE(専門家混合)大規模モデル

Deepseek V3 Base(2024)

  • 6,710億パラメータ(MoE)、アクティブ370億、14.8兆の高品質トークンで学習
  • R1(推論特化モデル)も登場し、ダウンロード可能なモデルとして初めてGPT-4級性能に近づいた
  • 公開直後にはNVIDIA(NVDA)の株価が一時下落するなど、市場に大きな影響を与えた
  • その後、中国系を含む新興の大規模MoEモデルが次々に登場
    • 一部モデルはマルチモーダル・多言語対応のため、さまざまな種類の新しいデータを学習に導入している

Databricks(DBRX、2024年3月)

  • 総1,320億パラメータ、アクティブ360億、12兆トークン
  • 16人の専門家のうち4人を選択(Mistral・Grokより細分化)

Minimax(2025年1月)

  • 総4,560億パラメータ、アクティブ459億、独自の reward labeler により学習データ品質を制御

Dots(2025年6月)

  • 総1,430億パラメータ、アクティブ140億、11.2兆トークン、32Kコンテキスト
  • top-6/128 専門家構造、Qwen2.5-72Bに近い性能

Hunyuan(2025年6月)

  • 800億MoE、アクティブ130億、20兆トークン、256Kコンテキスト
  • 8つの非共有専門家を有効化し、共有専門家は常時有効

Ernie(2025年6月)

  • 総4,240億パラメータ、アクティブ470億、数兆トークン

結論と展望

  • 2024〜2025年時点で、GPT-3級(1,750億)以上の超大規模モデルが多様に公開されている
  • 405B(4,050億)が最新の dense base モデルだが、最新のMoEモデルも大規模化・多様化が進んでいる
  • Dense vs MoE の性能比較はなお曖昧で、真の「知能」に必要な構造と規模についての議論が必要
  • 新しい構造(RWKV、byte-latent、bitnet)や合成データ活用なども実験されているが、純粋なテキストエンジンとしての本質的な発展は依然として課題
  • 最近の大半の大規模モデルは「AIアシスタント」役割向けに fine-tune される傾向があり、代替的なLLM探求が必要な時期に来ている

1件のコメント

 
GN⁺ 2025-07-03
Hacker Newsの意見
  • これは純粋に技術的な意見というより、こうしたダウンロード可能なモデルの中にどれほど多くのデータが圧縮されているのかという事実に、いまだに感嘆せずにはいられない。昨日、機内Wi-Fiのない飛行機の中で Ollama 経由で gemma3:12b モデル(8.1GB)をダウンロードして、子どもたちとあれこれ質問してみた。最近のビデオゲームや動物、歴史などさまざまな質問に対して完璧ではなかったが、こんなに小さなファイルの中に人類の知識がこれほど詰め込まれていて、しかもオフラインで使えるという点が本当にすごいと感じた。損失圧縮ではあるが、人類の知識をここまで小さく圧縮できることには驚かされる

    • 言語モデルがどれほど強力な圧縮ツールになり得るのか、本当に興味深い。モデルを**アシスタント(assistant)**用途で訓練すると、通常のテキストよりもアシスタントの対話ログをよりうまく圧縮する。UncheatableEval という評価があり、ここでは言語モデルの圧縮能力をさまざまな課題に適用して把握できる。この評価基準は事実上「ごまかしの利かない」テストだ。圧縮性能は、ゲームのように抜け道を使えない真のベンチマークだと思う

    • オフラインでさまざまな資料をダウンロードして使えるKiwix プロジェクトを勧めたい。インターネット接続が不安定、または存在しない場所向けに、資料があらかじめ搭載された機器も提供している

    • 参考までに、英語版 Wikipedia は(2025年6月26日時点で)700万件を超える記事と 6,300万ページがある。テキストだけで約 156GB、すべての版を合わせるとデータベース全体の容量は約 26TB に達する

    • 8.1GB は本当に大きい。648億(64,800,000,000)ビットで、100ビットや1,000ビットは想像できても、1万、100万、6,400万、そしてその1,000倍にあたるこの数字は本当に途方もない大きさだと実感する

    • 情報理論や圧縮の観点から言語モデルを研究する分野はまだ小さいが、効率性とスケーラビリティのためにますます重要になっている。今日この関連の議論を行ったので、興味がある人は参考にしてほしい

  • Deepseek v1 は約 6700億パラメータで、物理サイズは 1.4TB ほど。これまでにデジタル化されたすべての本を圧縮すると数TB、公開ウェブは約 50TB、英語の電子テキスト全体を zip で固めると O(100TB) 近辺になるだろうと予想している。現在のモデルサイズは全体の1%水準で、もはやサイズをさらに大きくしても性能が期待ほどは伸びない領域に入ったように見える(gpt4.5 vs 4o 参照)。こうした理由から、最近では「推論型(reasoning)モデル」によって計算コストが推論時間(inference)側へ移っている。追加の効用を得るには、今後は特定ドメインに焦点を当てた特化(特殊化)モデルへ進化していくと予想している。高品質なオープンソースモデルのための1TB 推論 VRAMが中期的なターゲットになり得ると思う。中小企業(SME)レベルでも手の届くスペックだ(約 250B パラメータを想定)

    • 画像や動画を加えると、上の予測値は 640KB あれば十分だという昔の話のように聞こえるかもしれない。その後、ロボットが自ら世界を探索してデータを確保するようになれば、さらに多くの情報が蓄積されるだろう。真面目な話、画像やインタラクションデータの追加はテキスト生成にもかなりの効用があるはずだ

    • 実際の数値を一度計算してみた。論文 1億5700万本、本 5200万冊を基準に、平均して論文 1万語、本 10万語と置き、サンプルの書籍データで圧縮率を算出した。非圧縮では約 30TB、圧縮時は 5.5TB 程度になる。2TB の microSD 3枚(合計 750ドル)で保存可能だ

    • 細かい指摘だが、固定された保存容量に対して big O 記法(O(100TB))を使うのは適切ではないと思う

    • ちなみにその50TBは米国議会図書館 Library of Congress 基準なのか聞きたい。インターネット全体はもっとずっと大きいはずだ

    • 「デジタル化されたすべての本が数TBに圧縮され、公開ウェブは 50TB」という数値がどこから来たのか気になる。出典があるなら見てみたい。昔、世紀の変わり目までの文字記録物は約 50MB だという文章を読んだ記憶があるが、出典を見つけられず、もしかすると記憶違いかもしれない

  • Gemma、Gemini シリーズのモデル(Google)が抜けている。しかもT5 シリーズは転移学習とこの分野の普及に重要な役割を果たしたのに、言及がないのも惜しい。T5 は多くの概念の出発点だったと言える

    • Gemma モデルは容量が小さいのでリストに含まれていない。T5 は歴史的に非常に重要だが、サイズが 11B 未満なので特に多くは触れていない。それでも本当に意味があり、面白いモデルだ
  • 視覚的に見たいなら、年ごとのパラメータ総数をグラフ化した資料がある Total Parameters vs. Release Year by Family

    • このグラフは、GPT-3 がどれほど大きな飛躍だったか、そしてその後かなり長い間だれもその水準に追いつけなかったことを非常に明確に示す可視化資料だ

    • 本当にすばらしい資料だ。作ってくれてありがとう。自分の投稿のコメントにチャートのスクリーンショットとリンク、クレジットを残しておいた

  • 本当に良い記事だ。ただ、こうした超巨大言語モデルだけが最高の革新であるかのように前提している点がある。大手プレイヤーはその間かなり静かだったが、外から見ている限り OpenAI はその行動を通じてわずかなヒントを出していた。もっと大きなモデルを作ったものの結果が期待外れで、ひそかに実験を打ち切ったのだ。実際、最も強力な最前線の reasoning モデルは、公開されている巨大モデルよりむしろ小さい可能性がある

  • 皮肉な状況だ。オープンソースコミュニティは GPT-3(175B)に追いつくために、30〜70B モデル、RLHF、合成データなどさまざまな試みをしてきたが、それでも差は残っていた。結局、モデル本来の大きさが本当に重要だと判明し、真に巨大な dense(405B)あるいは MoE モデル(DeepSeek V3、DBRX など)が登場して初めて、公開ラボの外でも GPT-4 級の reasoning が実現した

  • 「open-source モデルが GPT-3 レベルに近づくため、その多くが 70B 級の Llama をGPT-3 が生成した合成データで学習させた」という部分の注釈には同意できない。もし合成データが常に性能低下につながるなら、AI 研究所が使うはずがない。実際には合成データを活用してより良いモデルを作っている。非常に意図的に「自分自身の出力で学習ループを回す」状況では性能低下が出るという論文はあるが、実際に AI 研究所が合成データを使うやり方とは違う。その論文が人気なのは、まるで「自分の尻尾を食べて滅びる AI」というコンセプトがあまりにも魅力的だからだ

    • 同意する。特に、より小さなモデルをより大きなモデルの出力で学習させる文脈では、distillation(知識蒸留)は非常に効果的な手法だ。個人的にも過去に Llama、Mistral モデルを人手データと GPT-4 生成データでドメイン特化チューニングしたことがあり、(品質の高い)合成データを加えた後の方が結果は良かった
  • 人々がLLM を損失圧縮だと繰り返し言い続けるのは残念だ。大まかな比喩としては正しいかもしれないが、より厳密で面白い事実は、LLM が可逆圧縮のアルゴリズムとしても機能するという点だ。例は2つある。1) どんなテキストでも、LLM の対数尤度に近いコストで算術符号化を使える(前提として送信者と受信者が同じ LLM パラメータを持っている必要がある) 2) LLM と SGD(学習コード)を使えば可逆圧縮を実現できる(ここではモデルパラメータは記述長に含めない) Jack Rae の “compression for AGI” 資料は参考になる

    • 1番に関連して言えば、古典的な圧縮手法でも送信者・受信者の双方が同じ巨大な辞書を持っていれば非常に効果的だ
  • 「1.61B」のような数値だけでは、ファイルがどれくらい大きいのか、あるいはどれだけの VRAM が必要なのかがあまり実感できない。実際の保存容量やハードウェア要件、今買うならどのあたりまで動かせるのか、10年後にはどんなモデルを動かせるのかが気になる

    • パラメータ1つあたり 1バイト(f8)なら 1.6GB、2バイト(f16)なら 2.3GB。GPU にロードする以外にも追加メモリが必要なので、だいたいパラメータ数の4倍程度を見込むのがよい。つまり、2B パラメータなら 8GB VRAM 推奨

    • ほとんどのモデルは 16ビット(2バイト)で学習される。10億パラメータのモデルは 2GB。実運用ではもっと小さい 8ビット量子化でも十分で、通常は 16ビットから 8ビットに落としても性能低下はほとんどない。したがって、10億モデルは 1GB、20B モデルは 20GB と単純計算できる。さらに低いビット幅(5ビット、4ビットなど)でも性能低下が大きくなければ、用途によっては十分実用になる。4ビットで直接学習したモデルが、16ビットから量子化したモデルより高品質だった例すらある。大規模モデルのボトルネックは VRAM 容量ではなく帯域幅だ。したがって、VRAM の多い GPU が重要になる。128GB のシステム RAM があっても、GPU-CPU 間の帯域幅が足りず GPU メモリを超えると、かえって CPU の方が遅くなる。GPU(例: RTX 5090)は 32GB VRAM、帯域幅 1Tb/s 程度。Apple M シリーズは 512Gb/s、AMD Strix Halo は 128GB ユニファイドメモリと 256Gb/s の帯域幅を提供する。コンシューマー向けハードウェアで LLM を動かす実際の経験については Reddit の r/LocalLLaMA が参考になる。ただし、あそこはかなり型破りな試みも混ざっているので注意。10年後の状況は予測不能だ。TSMC、Samsung、Intel はいずれもハイパースケーラー需要に合わせてフラッグシップ GPU の量産に注力しており、半導体業界も政治、貿易、AI、ブラックスワンなど多くの変数があって見通しづらい局面にある