20 ポイント 投稿者 computerphilosopher 2025-03-24 | 4件のコメント | WhatsAppで共有

仏教GPT開発の背景

  • 仏教の学習にGPTを活用しようとしたが、基本性能は期待以下だった。
  • PDF資料を学習させることで回答品質は向上した。
  • ジャータカ経典の学習を提案され、プロジェクトに着手した。

PDF学習の限界

  • ジャータカのPDFを学習させた後、ハルシネーションが深刻だった。
  • 多段組、表、図などの非線形構造がGPTの妨げになった。

試した方法(すべて失敗)

  • epubフォーマットの使用
  • instructionの調整
  • Markdown変換 + クローリング
  • csvインデックスの追加

解決の糸口

  • 問題は、ジャータカの番号ベースの構造とGPTの生成型という性質の衝突だった。
  • GPTはcsvをうまく活用できなかった。
  • JSONインデックスを提案されて適用すると、精度が急上昇した。

実際の適用方法

  • epub → Markdown変換(pandoc)
  • headingの修正、不要なテキストの削除
  • 場合によっては手作業でMarkdownを構成

サービス終了の理由

  • アビダンマに関する質問でハルシネーションが発生
  • 翻訳者Sujato BhanteのAI学習反対の立場
  • SuttaCentralのライセンス違反となる可能性

結論

  • RAGは単純ではない。
  • AI学習用資料は必ずライセンスを確認しなければならない。

4件のコメント

 
pkj3186 2025-03-24

経典に似た表記法を使う別の種類の学習にも役立ちそうですね。プラトンの書籍とか…

 
bus710 2025-03-24

これはこれで……私たちを置いて、自分だけ涅槃に入ってしまったわけじゃないですよね?

 
1206good 2025-03-24

Mistral OCRならDoc As Promptがうまくいくと思っていましたが、私にも似たような問題がありました。手がかりを得られました。

 
halfenif 2025-03-24

「友人にはしにくい恋愛相談をLLMに気軽にしてください」って発想を思い出しますね。