LEAF: 2300万パラメータでOpenAI埋め込み性能の97%を達成、CPUのみで動作
(aisparkup.com)LEAF(Lightweight Embedding Alignment Framework)はMongoDB Researchが開発した埋め込みモデルで、知識蒸留手法を用いてRAG(Retrieval-Augmented Generation)システムのコストと速度の問題を解決する革新的なソリューションです。従来の高性能埋め込みモデルではGPUサーバーが必須でしたが、LEAFは2300万パラメータ規模の小型モデルでありながら、OpenAIのtext-embedding-3-largeの性能の97%を達成し、CPUのみで動作できるようにしました。
背景と課題
- RAGシステムでは、文書のインデックス作成は遅くても問題ありませんが、ユーザークエリへの応答は数百ミリ秒以内に行われる必要があります。
- 高性能モデルを使うとGPUコストが負担になり、低コストモデルに切り替えると性能が落ちるというジレンマがありました。
- LEAFはこの問題を「教師-生徒モデルの互換性」によって解決します。
- 既存の蒸留手法のように全レイヤーを揃えるのではなく、最終出力(埋め込み)のみを一致させます。これにより、大きな教師モデルで文書をインデックス化し、小さな生徒モデルでクエリをCPU上で高速に処理でき、モデル変更時にも既存インデックスを再利用できます。
- 学習データのラベリングなしでA100 GPU 1台で学習できるため、導入しやすさも高いです。
公開モデルと性能
MongoDBは2つのモデルをApache 2.0ライセンスで公開しました:
- mdbr-leaf-ir: 検索/RAG最適化モデル。BEIRベンチマークで53.55点(OpenAI smallの51.08点を上回り、largeの55.43点の97%)。
- mdbr-leaf-mt: 汎用モデル(分類/クラスタリング)。MTEB v2で63.97点(OpenAI smallの64.56点に近接)、3000万パラメータ以下で最高性能。
これらのモデルはCPU 2コアで毎秒120クエリを処理し、メモリ使用量はわずか87MBのため、スマートフォンやIoT機器でのオフライン動作が可能です。
結論と示唆
- LEAFはGPU依存を減らして高性能埋め込みを民主化し、スタートアップやエッジコンピューティング環境でのRAG実装を後押しします。
- 制約としては元のモデル比で3%の性能低下がありますが、ほとんどの実務では無視できる水準です。
- モデルと学習レシピはHugging Faceからダウンロード可能で、ドメインデータでのファインチューニングも容易です。
1件のコメント
すでに bge-m3 や gemma の 300m でも十分に優秀で、しかも小さいのではないですか