Mi:dm 2.0 - KTの独自開発オープンソースLLM

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" は、韓国社会の言語・文化的特性を反映した、商用利用可能なオープンソースモデル高品質な韓国語データの選別と合成データ生成、カリキュラム学習、韓国語に特化した独自トークナイザーなどの多層的な最適化戦略を採用オンデバイス向け mini(2.3B)、性能と効率のバランスを取った base(11B)、フロンティア級の pro(41B、公開予定) の3種類のモデル Mi:dm 2.0 Mini (2.3B): 軽量モデルで、組み込み環境と特定用途に最適化 Mi:dm 2.0 Base (11.5B): 大規模汎用モデルで、Depth-up Scaling 手法により既存の8Bモデルを深層化して性能を強化 Base、Mini ともに 32Kトークン入力をサポート KMMLU、HAERAE などの韓国語ベンチマークで最高水準の性能を示し、研究・商用利用のいずれにも自由な MITライセンスで公開データ構成と戦略韓国語の高品質文書の確保に重点を置き、文脈性、可読性、無害性の基準で文書を選別合成データ（翻訳、キーワードベースの教材生成、Chain-of-Thought など）を活用してドメインの多様性を確保カリキュラム学習とドメインバランシングで学習データの不均衡を解消韓国語最適化トークナイザーで圧縮効率と言語構造の反映を強化データ分類体系言語、ドメイン、データソース、表現/スタイルなどの多次元分類体系を適用 6つの主要ドメイン（人文、STEM、応用科学、健康/食品、生活/文化、その他）と 20のサブドメイン 85.7%以上を自然由来（organic）データで構成し、14%は合成データ品質管理パイプライン 8段階の大規模Web文書フィルタリング: 重複除去、ヒューリスティック、perplexity、文字破損/修正、モデルベース品質フィルタ、有害性フィルタ、行重複、PII非識別化など各ソースごとに個別の精製とルールを適用（例: ニュース、法務文書、学術論文など）合成データ生成 STEM、経済などの低カバレッジ分野は高信頼のオープンソースデータをシードとし、韓国語の教材/説明/問題などを合成してデータを強化不採用（不適格）Web文書も主要テーマのみを抽出・再作成して活用英語Web文書の構造的多様性を韓国語に変換・拡張し、長文のQA・作文データを確保 Chain-of-Thought データで数学・コードなどの段階的推論学習を強化モデルアーキテクチャと学習 Transformerデコーダー-only構造 Base: 8Bモデル → Depth-up Scaling（32→48層）→ 11.5Bに拡張し、高品質データで2段階の継続学習 Mini: Baseの知識を width pruning と多段階 distillation で軽量化し、効率的な推論が可能 Long-context 学習により最大32,768トークン入力をサポート GQA、SiLU、RoPE など最新技術を反映使用レビューと紹介記事韓国型AIモデル : KT Mi:dm 2.0 使用レビュー KTが作った韓国語AI、Midm 2.0 紹介 KTの韓国型AI Mi:dm 2.0 を使ってみる KTの Mi:dm 2.0 紹介ページ KTの Mi:dm 1.0 リリース時の広報資料 - Mi:dm、この性と感性を超えて個性を表現する

(huggingface.co)

10 ポイント投稿者 xguru 2025-07-10 | 16件のコメント | WhatsAppで共有

"Mi:dm" は、韓国社会の言語・文化的特性を反映した、商用利用可能なオープンソースモデル
高品質な韓国語データの選別と合成データ生成、カリキュラム学習、韓国語に特化した独自トークナイザーなどの多層的な最適化戦略を採用
オンデバイス向け mini(2.3B)、性能と効率のバランスを取った base(11B)、フロンティア級の pro(41B、公開予定) の3種類のモデル
- Mi:dm 2.0 Mini (2.3B): 軽量モデルで、組み込み環境と特定用途に最適化
- Mi:dm 2.0 Base (11.5B): 大規模汎用モデルで、Depth-up Scaling 手法により既存の8Bモデルを深層化して性能を強化
- Base、Mini ともに 32Kトークン入力 をサポート
KMMLU、HAERAE などの韓国語ベンチマークで最高水準の性能を示し、研究・商用利用のいずれにも自由な MITライセンス で公開

データ構成と戦略

韓国語の高品質文書の確保に重点を置き、文脈性、可読性、無害性の基準で文書を選別
合成データ（翻訳、キーワードベースの教材生成、Chain-of-Thought など）を活用してドメインの多様性を確保
カリキュラム学習とドメインバランシングで学習データの不均衡を解消
韓国語最適化トークナイザーで圧縮効率と言語構造の反映を強化

データ分類体系
- 言語、ドメイン、データソース、表現/スタイル などの多次元分類体系を適用
- 6つの主要ドメイン（人文、STEM、応用科学、健康/食品、生活/文化、その他）と 20のサブドメイン
- 85.7%以上を自然由来（organic）データで構成し、14%は合成データ
品質管理パイプライン
- 8段階の大規模Web文書フィルタリング: 重複除去、ヒューリスティック、perplexity、文字破損/修正、モデルベース品質フィルタ、有害性フィルタ、行重複、PII非識別化など
- 各ソースごとに 個別の精製とルールを適用（例: ニュース、法務文書、学術論文など）
合成データ生成
- STEM、経済などの低カバレッジ分野は高信頼のオープンソースデータをシードとし、韓国語の教材/説明/問題などを合成してデータを強化
- 不採用（不適格）Web文書も主要テーマのみを抽出・再作成して活用
- 英語Web文書の構造的多様性を韓国語に変換・拡張し、長文のQA・作文データを確保
- Chain-of-Thought データで数学・コードなどの段階的推論学習を強化

モデルアーキテクチャと学習

Transformerデコーダー-only構造
Base: 8Bモデル → Depth-up Scaling（32→48層）→ 11.5Bに拡張し、高品質データで2段階の継続学習
Mini: Baseの知識を width pruning と 多段階 distillation で軽量化し、効率的な推論が可能
Long-context 学習により 最大32,768トークン入力 をサポート
GQA、SiLU、RoPE など最新技術を反映

使用レビューと紹介記事

KTの Mi:dm 2.0 紹介ページ
KTの Mi:dm 1.0 リリース時の広報資料 - Mi:dm、この性と感性を超えて個性を表現する

16件のコメント

miseenscene 2025-07-11

試みは応援しますが…
organization を新しく作って 1.0 はなかったことにする、そんなことはしないでほしいですね。

bakyeono 2025-07-11

名前を見ただけでも、信頼性が低そうに見えます。
名前の真ん中にコロンを入れているのはなぜでしょうか。意味上の理由があるのでしょうか？それとも、まさかそれがかっこいいと思っているのでしょうか？
それに、mid:eum ならアルファベットでは mid:m と表記すべきではありませんか？

xguru 2025-07-11

いろいろな意見はあるでしょうが、私は基本的に国内で試みられるあらゆるAI関連プロジェクトにはすべて意義があると思っています。ほかと比較して水準を評価するよりも、試みそのものを称賛すべき状況だと思います。

対応が遅れたのは事実ですし、資金もGPUも米国や中国に比べて劣勢ではありますが、称賛して一緒に使いながら改善していけば良くなっていくのではないでしょうか。

crawler 2025-07-11

一部同意します。
私は、AIサービスと称して外部APIを使うラッパーを作るのはまったく生産性のないことで、手数料商売だと思っていますが、
企業がせめてモデルのファインチューニングでもして公開するのは、結局は自社のリソースを投じて公開するわけですから、否定的に見る理由はないと思います。

ただし、外部、たとえば国から資金を受け取り始めるなら、手放しで好意的には見られない気もしますが……

crawler 2025-07-11

> 私は、AIサービスと称して外部APIを使うラッパーを作るのは、まったく生産性のないことであり、手数料商売だと思っていますが、

これに付け加えると、APIを使うとしても Manus レベルでうまく活用できれば成果と見なせますが、まだ韓国にはその程度のラッパーはないようですね。

mssmss 2025-07-11

ベース性能を上げる課題では、競争力を持って打ち出すことはできないですからね

strn18 2025-07-10

韓国企業や政府が韓国語特化の言語モデルに注力する理由は何なのでしょうか。最近のLLMの潮流を見ると、インターネット規模の大規模データで学習して性能を高めるのであれば、むしろ言語を問わない汎用モデルのほうが自然に思えますが、あえて韓国語に特化したLMにどんな利点があるのかよく分かりません。

ryj0902 2025-07-11

AIが次世代の基盤だと本気で考えるなら、国家の中核的な基盤技術が他国の技術に依存するのは望ましくないから……？

roxie 2025-07-11

他国の技術 != 他国のデータだと思います

dbs0829 2025-07-11

ユーザー数の少ない言語の品質が低いこと自体は事実ですが、だからといって韓国語だけをうまく扱えるようにするとも思いません。そうする理由も特にありませんし。そして問題は、私たちがそのユーザー数の少ない言語のユーザーだということです……

greenday 2025-07-11

冷静に言ってしまえば、競争力がないからです。
フロンティア級のオープンソースモデル開発は、通常はビッグテックで数十億ウォン以上の年俸を受け取るResearch Engineerたちで構成されたチームが、莫大なGPUリソースの支援を受けながら進めています。（過去にMetaで1つのプロジェクトに投入されたGPUはA100が1万台で、当時韓国にあったA100の総量より多かったと記憶しています。）

韓国でLLM開発に投入されている人材とGPU資源は、現実的に見て世界で競争するのが難しい水準です。
私たちだけが特にできていないというより、米国と中国があまりにも圧倒的で、追いつくのが難しいと見るのが正しいと思います。

helio 2025-07-11

私もよく分かりませんが、thinkする過程を見ると、韓国語で質問しても英語で行う場合があるようなので、そうした過程を韓国語で行えれば、もう少し国内の情緒？に合った答えを出せるのではないでしょうか

truestar 2025-07-11

これから開発されたり進化したりする新しいAI、または既存AIの底上げを見据えて投資しているのではないでしょうか。DeepSeekのように。こうしたAIに韓国の情緒を込められるなら、競争力がありそうです。未来の話ではありますが。

zihado 2025-07-10

政府の使い道のない予算を吸い上げようとしているように見えます

clastneo 2025-07-10

韓国語が文字化けしているせいではないでしょうか？ Geminiもそうですが、使っているとある時点で別の言語に飛んでしまうことが多すぎて……

cckn1985 2025-07-10

AIモデルの名前が、ポストアポカリプスやディストピアに出てきそうな不吉な名前ですね（笑）

Mi:dm 2.0 - KTの独自開発オープンソースLLM

データ構成と戦略

データ分類体系

品質管理パイプライン

合成データ生成

モデルアーキテクチャと学習

使用レビューと紹介記事

関連記事

16件のコメント