PDFを渡せば終わりだと思っていた - GPTsへのRAG適用失敗記

computerphilosopher · 2025-03-24T00:58:43+09:00

仏教GPT開発の背景仏教の学習にGPTを活用しようとしたが、基本性能は期待以下だった。 PDF資料を学習させることで回答品質は向上した。ジャータカ経典の学習を提案され、プロジェクトに着手した。 PDF学習の限界ジャータカのPDFを学習させた後、ハルシネーションが深刻だった。多段組、表、図などの非線形構造がGPTの妨げになった。試した方法（すべて失敗） epubフォーマットの使用 instructionの調整 Markdown変換 + クローリング csvインデックスの追加解決の糸口問題は、ジャータカの番号ベースの構造とGPTの生成型という性質の衝突だった。 GPTはcsvをうまく活用できなかった。 JSONインデックスを提案されて適用すると、精度が急上昇した。実際の適用方法 epub → Markdown変換（pandoc） headingの修正、不要なテキストの削除場合によっては手作業でMarkdownを構成サービス終了の理由アビダンマに関する質問でハルシネーションが発生翻訳者Sujato BhanteのAI学習反対の立場 SuttaCentralのライセンス違反となる可能性結論 RAGは単純ではない。 AI学習用資料は必ずライセンスを確認しなければならない。

(velog.io/@skynet)

20 ポイント投稿者 computerphilosopher 2025-03-24 | 4件のコメント | WhatsAppで共有

仏教GPT開発の背景

仏教の学習にGPTを活用しようとしたが、基本性能は期待以下だった。
PDF資料を学習させることで回答品質は向上した。
ジャータカ経典の学習を提案され、プロジェクトに着手した。

PDF学習の限界

ジャータカのPDFを学習させた後、ハルシネーションが深刻だった。
多段組、表、図などの非線形構造がGPTの妨げになった。

試した方法（すべて失敗）

epubフォーマットの使用
instructionの調整
Markdown変換 + クローリング
csvインデックスの追加

解決の糸口

問題は、ジャータカの番号ベースの構造とGPTの生成型という性質の衝突だった。
GPTはcsvをうまく活用できなかった。
JSONインデックスを提案されて適用すると、精度が急上昇した。

実際の適用方法

epub → Markdown変換（pandoc）
headingの修正、不要なテキストの削除
場合によっては手作業でMarkdownを構成

サービス終了の理由

アビダンマに関する質問でハルシネーションが発生
翻訳者Sujato BhanteのAI学習反対の立場
SuttaCentralのライセンス違反となる可能性

結論

RAGは単純ではない。
AI学習用資料は必ずライセンスを確認しなければならない。

4件のコメント

pkj3186 2025-03-24

経典に似た表記法を使う別の種類の学習にも役立ちそうですね。プラトンの書籍とか…

bus710 2025-03-24

これはこれで……私たちを置いて、自分だけ涅槃に入ってしまったわけじゃないですよね？

1206good 2025-03-24

Mistral OCRならDoc As Promptがうまくいくと思っていましたが、私にも似たような問題がありました。手がかりを得られました。

halfenif 2025-03-24

「友人にはしにくい恋愛相談をLLMに気軽にしてください」って発想を思い出しますね。