- ChatGPTの時代がやってきました。第3次産業革命と呼ばれてもおかしくないほど、大規模言語モデルの影響力が大きい時代を私たちは生きています。私の母も、気になることがあればChatGPTを使うほどで、世代を問わずその活用範囲はますます広がっています。
- このように活用範囲が広がる理由を考えてみると、おそらくユーザーが望む情報を正確にうまく取り出して届けてくれるからではないかと思います。情報過多に疲れた人々にとって、「必要な」情報をうまく選び出して持ってきてくれるわけです。
- 飛躍的な発展を遂げてきた一方で、これまでには多くの困難もありました。その一例として挙げられるのが「ハルシネーション」です。情報を持ってきてはくれるものの、不正確な情報を持ってきてしまうのです。この現象にはさまざまな原因があります。最も代表的な原因を挙げるなら、ユーザーの意図を誤って解釈し、無関係な情報を持ってきてしまうことです。この原因を解決する方法はシンプルです。ユーザーの意図を「適切に」把握し、「関連性のある」情報を届けることです。
- これを改善するために、さまざまな試みが行われています。主に4つの方法に分類できます。1. 大規模言語モデルを最初から構築する方法、2. 「よく」学習された大規模言語モデルを持ってきて、望む領域に合うよう追加学習する方法、3. 大規模言語モデルはそのまま使いつつ、ユーザーの質問に追加の文脈を与える方法、4. 大規模言語モデルを用いながら、ユーザーに回答する過程で「関連情報」に関する文脈を追加で提供し、その関連性を際立たせる方法です。方法が多様であるだけに、その長所と短所も存在します。
- 1は最初から構築するため、データの明確な文脈を最初から大規模言語モデルに提示できるという利点がある一方、ゼロから構築するのでコストが小さくないという短所があります。
2は「よく」学習された大規模言語モデルの文脈を活用し、ドメイン特化の少量データを選別して適用するため、比較的コストが低く、精度もある程度保証されるという利点がある一方で、大規模言語モデル本来の文脈を失わずにドメイン特化の文脈を調和的に維持するのが難しいという短所があります。
3はユーザーの質問を加工し、意図に関する文脈を「うまく」付与すればよいためコストが低いという利点がある一方、文脈を付与する過程で付与者の主観が介入する可能性があるため、文脈の客観性を欠くことがあります。そのため、偏りが強く反映されると、かえって文脈が否定的に作用してしまうという短所があります。
4は比較的最新の情報を反映した回答でユーザーの質問に答えられ、導入コストが低いという利点がある一方、関連文書によって質問の品質がさまざまであるため、どのように関連文書を適切に判別して取得するかについて戦略的にアプローチし、多様な要素をバランスよく組み合わせる必要があるなど、複雑性が高いという短所があります。
- このほかにも、cost、accuracy、domain-specific terminology、up-to-date response、transparency and interpretabilityの5つの側面からバランスよく比較した詳しい内容が https://deci.ai/blog/… によくまとめられているので、一度参照してみることをおすすめします。
- ここまで、大規模言語モデルで発生する問題であるハルシネーションを解決するために試みられているさまざまな方法論について話してきました。今回の投稿では、方法論のうち4番に当たる、「関連情報」をうまく取得して文脈を付与する技術であるRAG(Retrieval Augment Generation)について見ていき、RAGの限界、そしてその限界を補う方法の一つであるGraphRAGまで見ていきます。
まだコメントはありません。