- "Mi:dm" は、韓国社会の言語・文化的特性を反映した、商用利用可能なオープンソースモデル
- 高品質な韓国語データの選別と合成データ生成、カリキュラム学習、韓国語に特化した独自トークナイザーなどの多層的な最適化戦略を採用
- オンデバイス向け mini(2.3B)、性能と効率のバランスを取った base(11B)、フロンティア級の pro(41B、公開予定) の3種類のモデル
- Mi:dm 2.0 Mini (2.3B): 軽量モデルで、組み込み環境と特定用途に最適化
- Mi:dm 2.0 Base (11.5B): 大規模汎用モデルで、Depth-up Scaling 手法により既存の8Bモデルを深層化して性能を強化
- Base、Mini ともに 32Kトークン入力 をサポート
- KMMLU、HAERAE などの韓国語ベンチマークで最高水準の性能を示し、研究・商用利用のいずれにも自由な MITライセンス で公開
データ構成と戦略
- 韓国語の高品質文書の確保に重点を置き、文脈性、可読性、無害性の基準で文書を選別
- 合成データ(翻訳、キーワードベースの教材生成、Chain-of-Thought など)を活用してドメインの多様性を確保
- カリキュラム学習とドメインバランシングで学習データの不均衡を解消
- 韓国語最適化トークナイザーで圧縮効率と言語構造の反映を強化
-
データ分類体系
- 言語、ドメイン、データソース、表現/スタイル などの多次元分類体系を適用
- 6つの主要ドメイン(人文、STEM、応用科学、健康/食品、生活/文化、その他)と 20のサブドメイン
- 85.7%以上を自然由来(organic)データで構成し、14%は合成データ
-
品質管理パイプライン
- 8段階の大規模Web文書フィルタリング: 重複除去、ヒューリスティック、perplexity、文字破損/修正、モデルベース品質フィルタ、有害性フィルタ、行重複、PII非識別化など
- 各ソースごとに 個別の精製とルールを適用(例: ニュース、法務文書、学術論文など)
-
合成データ生成
- STEM、経済などの低カバレッジ分野は高信頼のオープンソースデータをシードとし、韓国語の教材/説明/問題などを合成してデータを強化
- 不採用(不適格)Web文書も主要テーマのみを抽出・再作成して活用
- 英語Web文書の構造的多様性を韓国語に変換・拡張し、長文のQA・作文データを確保
- Chain-of-Thought データで数学・コードなどの段階的推論学習を強化
モデルアーキテクチャと学習
- Transformerデコーダー-only構造
- Base: 8Bモデル → Depth-up Scaling(32→48層)→ 11.5Bに拡張し、高品質データで2段階の継続学習
- Mini: Baseの知識を width pruning と 多段階 distillation で軽量化し、効率的な推論が可能
- Long-context 学習により 最大32,768トークン入力 をサポート
- GQA、SiLU、RoPE など最新技術を反映
使用レビューと紹介記事
16件のコメント
試みは応援しますが…
organization を新しく作って 1.0 はなかったことにする、そんなことはしないでほしいですね。
名前を見ただけでも、信頼性が低そうに見えます。
名前の真ん中にコロンを入れているのはなぜでしょうか。意味上の理由があるのでしょうか? それとも、まさかそれがかっこいいと思っているのでしょうか?
それに、
mid:eumならアルファベットではmid:mと表記すべきではありませんか?いろいろな意見はあるでしょうが、私は基本的に国内で試みられるあらゆるAI関連プロジェクトにはすべて意義があると思っています。ほかと比較して水準を評価するよりも、試みそのものを称賛すべき状況だと思います。
対応が遅れたのは事実ですし、資金もGPUも米国や中国に比べて劣勢ではありますが、称賛して一緒に使いながら改善していけば良くなっていくのではないでしょうか。
一部同意します。
私は、AIサービスと称して外部APIを使うラッパーを作るのはまったく生産性のないことで、手数料商売だと思っていますが、
企業がせめてモデルのファインチューニングでもして公開するのは、結局は自社のリソースを投じて公開するわけですから、否定的に見る理由はないと思います。
ただし、外部、たとえば国から資金を受け取り始めるなら、手放しで好意的には見られない気もしますが……
> 私は、AIサービスと称して外部APIを使うラッパーを作るのは、まったく生産性のないことであり、手数料商売だと思っていますが、
これに付け加えると、APIを使うとしても Manus レベルでうまく活用できれば成果と見なせますが、まだ韓国にはその程度のラッパーはないようですね。
ベース性能を上げる課題では、競争力を持って打ち出すことはできないですからね
韓国企業や政府が韓国語特化の言語モデルに注力する理由は何なのでしょうか。最近のLLMの潮流を見ると、インターネット規模の大規模データで学習して性能を高めるのであれば、むしろ言語を問わない汎用モデルのほうが自然に思えますが、あえて韓国語に特化したLMにどんな利点があるのかよく分かりません。
AIが次世代の基盤だと本気で考えるなら、国家の中核的な基盤技術が他国の技術に依存するのは望ましくないから……?
他国の技術 != 他国のデータ だと思います
ユーザー数の少ない言語の品質が低いこと自体は事実ですが、だからといって韓国語だけをうまく扱えるようにするとも思いません。そうする理由も特にありませんし。そして問題は、私たちがそのユーザー数の少ない言語のユーザーだということです……
冷静に言ってしまえば、競争力がないからです。
フロンティア級のオープンソースモデル開発は、通常はビッグテックで数十億ウォン以上の年俸を受け取るResearch Engineerたちで構成されたチームが、莫大なGPUリソースの支援を受けながら進めています。(過去にMetaで1つのプロジェクトに投入されたGPUはA100が1万台で、当時韓国にあったA100の総量より多かったと記憶しています。)
韓国でLLM開発に投入されている人材とGPU資源は、現実的に見て世界で競争するのが難しい水準です。
私たちだけが特にできていないというより、米国と中国があまりにも圧倒的で、追いつくのが難しいと見るのが正しいと思います。
私もよく分かりませんが、thinkする過程を見ると、韓国語で質問しても英語で行う場合があるようなので、そうした過程を韓国語で行えれば、もう少し国内の情緒?に合った答えを出せるのではないでしょうか
これから開発されたり進化したりする新しいAI、または既存AIの底上げを見据えて投資しているのではないでしょうか。DeepSeekのように。こうしたAIに韓国の情緒を込められるなら、競争力がありそうです。未来の話ではありますが。
政府の使い道のない予算を吸い上げようとしているように見えます
韓国語が文字化けしているせいではないでしょうか? Geminiもそうですが、使っているとある時点で別の言語に飛んでしまうことが多すぎて……
AIモデルの名前が、ポストアポカリプスやディストピアに出てきそうな不吉な名前ですね(笑)