政府ドメイン特化sLLM構築記 — Gemma-3-1Bを国土交通部データでファインチューニングしたRAGチャットボット

(riss.kr)

1 ポイント投稿者 chohi 1 시간 전 | まだコメントはありません。 | WhatsAppで共有

政府ドメイン特化sLLM構築記 — molit-gemma + RAG

外部のLLMであるChatGPT/Claudeの利用が難しい公共機関のセキュアな環境で、オンプレミスのドメイン特化チャットボットを構築した事例です。

TL;DR

Google Gemma-3-1Bを国土交通部の政策文書でファインチューニング → molit-gemma
OpenSearchベースのRAGでハルシネーションを軽減
BLEU 0.6258、LLM-as-a-Judge 4.34/5.0
全体をオンプレミスでデプロイ（外部API 0）

なぜsLLMなのか

政府の民願応答は、外部API呼び出し時にデータ漏えいの懸念がある
70B級モデルはGPUインフラの負担が大きい → 1Bモデル + RAGで補完
ドメイン特化ファインチューニングは一般的なLLMより高い精度を示す

構成

ユーザーの問い合わせ → OpenSearch検索 → Top-K政策文書 → molit-gemmaが応答生成 → 出典を引用

示唆

公共部門におけるsLLM + RAGの組み合わせについて、実証的なベースラインを提示
1Bモデルでもドメインを限定すれば実用レベルに到達可能
ハルシネーション軽減 + 説明可能性を確保

リンク

論文(RISS): https://www.riss.kr/link?id=T17378943
モデル(Hugging Face): https://huggingface.co/chohi/gemma-molit-finetuned/blob/main/README.md
コード(GitHub): https://github.com/chohi22/Industrial-AI/…

まだコメントはありません。

まだコメントはありません。