仏教GPT開発の背景
- 仏教の学習にGPTを活用しようとしたが、基本性能は期待以下だった。
- PDF資料を学習させることで回答品質は向上した。
- ジャータカ経典の学習を提案され、プロジェクトに着手した。
PDF学習の限界
- ジャータカのPDFを学習させた後、ハルシネーションが深刻だった。
- 多段組、表、図などの非線形構造がGPTの妨げになった。
試した方法(すべて失敗)
- epubフォーマットの使用
- instructionの調整
- Markdown変換 + クローリング
- csvインデックスの追加
解決の糸口
- 問題は、ジャータカの番号ベースの構造とGPTの生成型という性質の衝突だった。
- GPTはcsvをうまく活用できなかった。
- JSONインデックスを提案されて適用すると、精度が急上昇した。
実際の適用方法
- epub → Markdown変換(pandoc)
- headingの修正、不要なテキストの削除
- 場合によっては手作業でMarkdownを構成
サービス終了の理由
- アビダンマに関する質問でハルシネーションが発生
- 翻訳者Sujato BhanteのAI学習反対の立場
- SuttaCentralのライセンス違反となる可能性
結論
- RAGは単純ではない。
- AI学習用資料は必ずライセンスを確認しなければならない。
4件のコメント
経典に似た表記法を使う別の種類の学習にも役立ちそうですね。プラトンの書籍とか…
これはこれで……私たちを置いて、自分だけ涅槃に入ってしまったわけじゃないですよね?
Mistral OCRならDoc As Promptがうまくいくと思っていましたが、私にも似たような問題がありました。手がかりを得られました。
「友人にはしにくい恋愛相談をLLMに気軽にしてください」って発想を思い出しますね。