Kakaoの言語モデル、Kananaテクニカルレポートを公開
(tech.kakao.com)- Kakaoは、サービス適用に最適化されたAIモデルを目指し、高い性能とコスト効率を同時に考慮した「Kanana Model Family」を開発している
- 超大規模言語モデル「Kanana Flag」の学習を完了し、これを含むKanana Essence、Kanana Nanoなどの言語モデルラインアップを完成した
- AI研究エコシステムへの貢献とグローバルAIコミュニティとの協業のため、「Kanana Nano 2.1B」モデル(base、instruct、embedding)をオープンソースとして公開
1. Global Top水準の韓国語・英語の高性能を達成
- Kakaoはグローバル競争力を備えたモデル開発を目標に、限られた資源の中で最高の性能を達成するため、さまざまな学習手法を実験した
- Kanana Flagは学習資源の最適化により、他社モデル比で50%以上の学習コスト削減と同時に最高水準(SOTA)の性能を記録した
- 英語ベンチマーク(MMLU、MT-Bench)ではグローバルモデルと同等の性能を示し、韓国語ベンチマーク(KMMLU、KoMT-Bench)では競合モデルを圧倒する性能を実証した
- ベンチマーク性能の要約
- 対話およびリクエスト遂行性能
- Kanana Flag 32.5Bは英語および韓国語ベースの対話で競合モデルより高いスコアを記録した
- 特に知識ベースの韓国語対話(KoMT-Bench)および論理的思考評価(LogicKor)で優れた性能を示した
- 知識、コーディング、数学性能
- 英語(81.08点)および韓国語(64.19点)の知識評価で高得点を記録し、競合モデルより優れた成果を上げた
- コード補完およびコードソリューションでも高い正確度を示し、基礎数学(GSM8K)では90.83点という優れた性能を達成した
- 対話およびリクエスト遂行性能
2. 学習効率化により、同規模モデル比で半分以下の学習コスト
- 大規模言語モデルの学習には莫大な計算資源が必要となるため、Kakaoは学習効率を最大化するPre-training戦略を適用した
- Staged pre-training方式を活用して8B、26.8B規模のモデルを学習した後、最適化を通じてKanana Nano 2.1Bモデルを構築した
- **プルーニング(Pruning)および知識蒸留(Distillation)**技法を活用して軽量モデルを最適化した
- **Depth Up-Scaling(DUS)**技法を適用して、Kanana Essence 9.8BおよびKanana Flag 32.5Bを開発した
- これにより、同規模のグローバルモデルと比べて半分以下のコストで学習を最適化することに成功した
3. オンデバイスでも活用可能な高性能軽量モデル、Kanana Nano 2.1Bをオープンソース公開
- 研究者および開発者の活用度を考慮し、「Kanana Nano 2.1B」のbase、instruct、embeddingバージョンをオープンソースとして公開した
- Kanana Nano 2.1Bはオンデバイス環境でも円滑に動作できるよう設計されており、研究および開発目的で活用できる
- 大規模モデルの高コストの問題と小規模モデルの低精度の問題を考慮し、最も実用的なサイズでの公開を決定した
- 比較的小さなモデルであるにもかかわらず、グローバルモデルに匹敵する性能を示し、多様な応用可能性を提供する
- ただし、複雑な推論や数学問題の解決など高難度タスクでは限界がある可能性はあるが、研究者および開発者がこれを基盤に多様な研究を進められるよう支援する予定である
まとめ
- Kakaoは今回のテクニカルレポートを通じて、Kanana言語モデルの全ラインアップとオープンソースモデルKanana Nano 2.1Bを紹介した
- 今後、**強化学習(RL)**ベースの技術を取り入れ、reasoning(推論)能力、数学およびコード性能を強化する予定である
- **継続学習(Continual Learning)**を通じて、新しいデータを継続的に学習しながら既存の学習内容を維持できるよう改善する計画である
- アラインメント(Alignment)技術を高度化し、ユーザーのリクエスト遂行能力を強化するとともに、AIがより自然に理解し対話できるよう発展させる予定である
- 最終的にKananaモデルはマルチモーダルAIへと進化し、人のように見て、聞いて、話し、直感的にコミュニケーションできるよう開発される予定である
- KakaoはAIがユーザーの日常に価値を加えられるよう継続的に挑戦し、技術競争力を強化していく計画である
Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download
[1] プルーニング(Pruning): AIモデルの構成要素を刈り込み、重要な要素だけを残す手法
[2] 知識蒸留(Distillation): 大きなモデルの知識をより小さなモデルに伝達する手法
[3] Depth Up-Scaling: 既存モデルのレイヤーをさらに積み重ね、モデル規模を効果的に拡大する方式
3件のコメント
ライセンスがどうなっているのか見てみたら、CC BY-NC-ND 4.0なんですね..?? NonCommercialということは、カカオ以外の会社は使うなという意味なんでしょうか... 意図がよく分かりませんね
www
www