DeepSeek R1の推論能力を基に、100分の1の小ささのModernBERTを訓練する

(link.medium.com)

7 ポイント投稿者 sigridjineth 2025-01-30 | まだコメントはありません。 | WhatsAppで共有

DeepSeek R1から作成したラベルを使って、ModernBERTモデルが「論文が新しいデータセットを紹介しているか」を予測するように学習させることができる。このように作られたモデルはすぐに利用可能であり、実務のサービス環境で推論のみを行う場合は、LLMのような巨大なリソースを必要としない。それでも、ラベルが必要な分類問題においてLLMの推論能力を間接的に転移させたものなので、ある程度の精度は十分に維持される。

特にRAGで、単純なテキストマッチングだけでは解決できず、ある程度の推論が必要な場合、ラベルが大きく不足していたり作成が難しかったりするときには、DeepSeekが生成したラベルを基にModernBERTモデルを学習させる方式が有用だ。

DeepSeek R1の推論能力を基に、100分の1の小ささのModernBERTを訓練する

関連記事

まだコメントはありません。