DeepSeek R1の推論能力を基に、100分の1の小ささのModernBERTを訓練する
(link.medium.com)DeepSeek R1から作成したラベルを使って、ModernBERTモデルが「論文が新しいデータセットを紹介しているか」を予測するように学習させることができる。このように作られたモデルはすぐに利用可能であり、実務のサービス環境で推論のみを行う場合は、LLMのような巨大なリソースを必要としない。それでも、ラベルが必要な分類問題においてLLMの推論能力を間接的に転移させたものなので、ある程度の精度は十分に維持される。
特にRAGで、単純なテキストマッチングだけでは解決できず、ある程度の推論が必要な場合、ラベルが大きく不足していたり作成が難しかったりするときには、DeepSeekが生成したラベルを基にModernBERTモデルを学習させる方式が有用だ。
まだコメントはありません。