LLM研究における未解決課題

xguru · 2023-08-22T11:22:02+09:00

LLM分野で語られている主要な課題10項目と、追加学習のためのリンク集ハルシネーションの低減と測定企業がLLMを採用する際の最大の障壁はハルシネーションハルシネーションを緩和し測定するための指標を開発することは人気の研究テーマであり、多くのスタートアップが注力しているハルシネーションを減らすための暫定的なコツとして、プロンプトにコンテキストを追加する、Chain-Of-Thought、Self-Consistency、モデルに簡潔な回答を求める、などがあるコンテキスト長とコンテキスト構成の最適化ほとんどの質問にはコンテキストが必要 SituatedQA論文によれば、情報検索の質問のかなりの部分はコンテキストによって回答が変わる（NQ-Openデータセットの16.5%が該当）企業の事例でははるかに高いはず（顧客サポートのチャットボットなら、その顧客の履歴や製品情報がコンテキスト）コンテキスト長はRAG（Retrieval Augmented Generation）で特に重要 RAGは2段階で動作チャンキング（インデキシング）: LLMで使用するすべての文書を収集。埋め込みを生成し、LLMに投入するためにチャンクへ分割し、埋め込みをベクターDBに保存クエリ: ユーザーがクエリを送ると、LLMがクエリを埋め込みに変換。ベクターデータベースから埋め込みに最も近いチャンクを取得コンテキスト長が長いほど、より多くのチャンクを入れられる。モデルがアクセスできる情報が増えれば応答も良くなるのではないか？しかし常にそうとは限らない。モデルが利用するコンテキスト量と、そのモデルがコンテキストをどれだけ効率的に使えるかは別の問題モデルのコンテキスト長を伸ばす努力とともに、コンテキストを効率化するための取り組みもあるプロンプトエンジニアリング、またはプロンプト構築と呼ばれる例えば最近の論文では、モデルはコンテキストの中間よりも最初や最後にある情報をよりよく理解することが示されている他のデータモダリティの統合 Multimodalityは非常に強力だが、まだ過小評価されている重要な理由医療、ロボティクス、eコマース、小売、ゲーム、エンターテインメントなど、多様なデータを扱う事例がある医学的予測にはテキスト（医師のノート、アンケート）と画像（CT、X-Ray、MRI）が必要製品メタデータには画像、動画、説明文、表形式データが含まれるマルチモダリティはモデル性能の大幅な向上をもたらすテキストだけを理解するモデルより、テキストと画像を理解できるモデルのほうが性能が高いテキストベースのモデルには膨大なテキストデータが必要なため、近いうちにモデル学習に必要なインターネット上のデータが枯渇するのではないかという懸念もあるテキストが不足したら、他のデータモダリティを活用しなければならない特に期待していること: 視覚障害のある人々がマルチモダリティを通じてインターネットを検索し、現実世界を探索できるようになること LLMをより速く、より安くする GPT-3.5が2022年11月に登場したとき、多くの人がレイテンシと本番環境での利用コストを懸念していたしかしレイテンシ／コスト分析はその後大きく変わった半年も経たないうちに、コミュニティはGPT-3.5のメモリ空間の2%だけで、性能面でGPT-3.5に非常に近いモデルを作る方法を見つけた核心: 十分に良いものが作られれば、人々はそれを速く安くする方法を見つける 4年前に整理したモデル最適化／圧縮の4つの主要技術 Quantization（量子化）: 最も一般的なモデル最適化手法。パラメータ表現に使うビット数を減らしてモデルサイズを縮小する。32ビット浮動小数点の代わりに16ビット、さらには4ビットも使う Knowledge distillation（知識蒸留）: 小さなモデル（生徒）が、より大きなモデルやモデルのアンサンブル（教師）を模倣するよう学習させる Low-rank factorization（低ランク分解）: パラメータ数を減らすために高次元テンソルを低次元テンソルに置き換える。例えば、3x3テンソルを3x1と1x3テンソルの積に分解すれば、9個のパラメータではなく6個のパラメータで済む Pruning（枝刈り）現在もこの4つの技術は有効で人気がある。Alpacaは知識蒸留を使い、QLoRAは低ランク分解と量子化の組み合わせを使った新しいモデルアーキテクチャの設計 2012年のAlexNet以降、LSTM、seq2seqなど多くのアーキテクチャが流行しては消えていったそれに比べてTransformerは非常にしぶとい。2017年に登場し、いつまで主流であり続けるのか気になる Transformerを上回る新しいアーキテクチャを開発するのは簡単ではない。過去6年間で徹底的に最適化されてきた新しいアーキテクチャは、今日人々が関心を持つ規模で性能を発揮しなければならない TransformerはもともとTPUで高速に動くよう設計され、その後GPU向けに最適化された 2021年にはChris Réの研究室でS4を中心に大きな盛り上がりがあった。最近も新しいアーキテクチャへの投資は続いており、直近ではスタートアップTogetherと共同でMonarch Mixerアーキテクチャを開発した GPU代替の開発 GPUは2012年のAlexNet以降、ディープラーニング向けの支配的ハードウェア AlexNetが人気を集めた理由の一つは、GPUを使ってニューラルネットワークを学習させた最初期の成功論文だったこと GPU以前は、AlexNet規模のモデルを学習させるには数千個のCPUが必要だった数千個のCPUに比べると、2基のGPUは博士課程の学生や研究者にとってはるかに手が届きやすく、ディープラーニング研究ブームを引き起こしたこの10年間、大企業、スタートアップ、その他多くの企業がAI向けの新しいハードウェアを作ろうとしてきた特に目立つのはGoogleのTPU、GraphcoreのIPU、Cerebras SambaNovaは新しいAIチップ開発のために10億ドル以上を調達したが、生成AIプラットフォームへとピボットした一時期は量子コンピューティングにも大きな期待が集まっており、主要プレイヤーは次の通り IBMのQPU Googleの量子コンピュータは今年初め、Natureで量子エラー低減に関する重要なマイルストーンを発表した。量子仮想マシンにはGoogle Colabからアクセスできる MIT量子工学センター、マックス・プランク量子光学研究所、シカゴ量子取引所、オークリッジ国立研究所などもう一つ非常に興味深い方向性はフォトニックチップ現在のチップは電気を使ってデータを移動させるため、多くの電力を消費し、レイテンシも発生するフォトニックチップは光子を使ってデータを移動させ、光速を活用してより高速で効率的な計算を実現する Lightmatter ($270M)、Ayar Labs ($220M)、Lightelligence ($200M+)、Luminous Computing ($115M)を含め、この分野のさまざまなスタートアップが数億ドル規模の資金を調達しているエージェントを実用化するエージェントとは、インターネット検索、メール送信、予約などの作業を実行できるLLM この記事で挙げられている他の研究方向と比べると、最も初期段階の分野と言える新規性と莫大な潜在力のため、エージェントには熱狂的な人気がある Auto-GPTは今やGitHub Star数基準で25番目に人気のあるRepo GPT-Engineeringもまた別の人気リポジトリこうした高揚感にもかかわらず、LLMが行動する権限を委任できるほど信頼でき、十分な性能を持つのかについては依然として疑問があるこの分野で最も注目に値するスタートアップはAdept Transformerの共同著者2人と元OpenAI VPが設立し、これまでにほぼ5億ドルを調達 Human Preferenceによる学習改善 RLHF、Reinforcement Learning from Human Preferenceは魅力的だが、ややHackyでもあるより良い方法で人々がLLMを訓練できるようになっても不思議ではない。RLHFには次のような未解決の問いがある人間の選好を数学的にどう表現するか？現在、人間の選好は比較によって決められている人間のラベラーは応答Aが応答Bより良いかを判断するが、どれほど良いかまでは考慮しない人間の好みとは何か？ Anthropicは有用性、誠実性、無害性という3つの軸に沿ってモデル応答の品質を測定した DeepMindは大多数の人を満足させる応答を生成しようとしている私たちは立場を取れるAIを望むのか、それとも議論を呼び得るテーマを避ける無難なAIを望むのか？文化、宗教、政治的傾向などの違いを考えたとき、誰の選好が「人間的」な選好なのか？潜在的な全ユーザーを十分に代表できる訓練データを得るのは非常に難しい例えばOpenAIのInstructGPTデータでは、65歳以上のラベラーはいなかった。ラベラーは主にフィリピン人とバングラデシュ人だったコミュニティ主導の取り組みは、意図は良くても偏ったデータにつながり得る例えばOpenAssistantデータセットでは、回答者222人のうち201人（90.5%）が男性だと答えたチャットインターフェースの効率向上 ChatGPT以降、チャットがさまざまな作業に適したインターフェースなのかについて多くの議論があったこれは新しい議論ではなく、アジアではチャットが約10年間スーパーアプリのインターフェースとして使われてきた個人的には次の理由からチャットインターフェースが好きチャットは、これまでコンピュータやインターネットに触れてこなかった人も含め、すぐに使い方を学べるインターフェースチャットインターフェースはアクセシブル。手がふさがっているときはテキストの代わりに音声を使えるチャットは信じられないほど強力なインターフェース。どんな依頼でもでき、たとえ応答が良くなくても何らかの応答は返してくれるただし、チャットインターフェースにはまだ改善できる領域があると思う 1ターンで複数メッセージマルチモーダル入力生成AIのワークフローへの統合メッセージの編集と削除非英語圏言語向けLLMの構築現在のEnglish-FirstなLLMは、性能、待ち時間、速度の面で他言語には十分うまく機能していないこの記事の初期読者の中には、この方向性を含めるべきではないと考える人もいたこれは研究というより物流（Logistics）の問題に近い。方法はすでに分かっていて、あとは資金と労力を投入するだけだ、という主張しかしこれは事実ではない。多くの言語は低資源言語であり、英語や中国語と比べて高品質データがはるかに少なく、大規模モデルの学習には別の技術が必要かもしれないより悲観的な人々は、将来多くの言語が消え、インターネットが英語と中国語という2つの言語からなる2つの世界に分かれるだろうとも言う。Esperandoを覚えている人はいるだろうか？機械翻訳やチャットボットのようなAIツールが言語学習に与える影響はまだ不明それらは人々が新しい言語をより速く学ぶ助けになるのか、それとも新しい言語を学ぶ必要そのものを完全になくしてしまうのか？

(huyenchip.com)

30 ポイント投稿者 xguru 2023-08-22 | 1件のコメント | WhatsAppで共有

LLM分野で語られている主要な課題10項目と、追加学習のためのリンク集

ハルシネーションの低減と測定

企業がLLMを採用する際の最大の障壁はハルシネーション
ハルシネーションを緩和し測定するための指標を開発することは人気の研究テーマであり、多くのスタートアップが注力している
ハルシネーションを減らすための暫定的なコツとして、プロンプトにコンテキストを追加する、Chain-Of-Thought、Self-Consistency、モデルに簡潔な回答を求める、などがある

コンテキスト長とコンテキスト構成の最適化

ほとんどの質問にはコンテキストが必要
SituatedQA論文によれば、情報検索の質問のかなりの部分はコンテキストによって回答が変わる（NQ-Openデータセットの16.5%が該当）
企業の事例でははるかに高いはず（顧客サポートのチャットボットなら、その顧客の履歴や製品情報がコンテキスト）
コンテキスト長はRAG（Retrieval Augmented Generation）で特に重要
RAGは2段階で動作
- チャンキング（インデキシング）: LLMで使用するすべての文書を収集。埋め込みを生成し、LLMに投入するためにチャンクへ分割し、埋め込みをベクターDBに保存
- クエリ: ユーザーがクエリを送ると、LLMがクエリを埋め込みに変換。ベクターデータベースから埋め込みに最も近いチャンクを取得
コンテキスト長が長いほど、より多くのチャンクを入れられる。モデルがアクセスできる情報が増えれば応答も良くなるのではないか？
しかし常にそうとは限らない。モデルが利用するコンテキスト量と、そのモデルがコンテキストをどれだけ効率的に使えるかは別の問題
モデルのコンテキスト長を伸ばす努力とともに、コンテキストを効率化するための取り組みもある
- プロンプトエンジニアリング、またはプロンプト構築と呼ばれる
- 例えば最近の論文では、モデルはコンテキストの中間よりも最初や最後にある情報をよりよく理解することが示されている

他のデータモダリティの統合

Multimodalityは非常に強力だが、まだ過小評価されている
重要な理由
- 医療、ロボティクス、eコマース、小売、ゲーム、エンターテインメントなど、多様なデータを扱う事例がある
  - 医学的予測にはテキスト（医師のノート、アンケート）と画像（CT、X-Ray、MRI）が必要
  - 製品メタデータには画像、動画、説明文、表形式データが含まれる
- マルチモダリティはモデル性能の大幅な向上をもたらす
  - テキストだけを理解するモデルより、テキストと画像を理解できるモデルのほうが性能が高い
  - テキストベースのモデルには膨大なテキストデータが必要なため、近いうちにモデル学習に必要なインターネット上のデータが枯渇するのではないかという懸念もある
  - テキストが不足したら、他のデータモダリティを活用しなければならない
特に期待していること: 視覚障害のある人々がマルチモダリティを通じてインターネットを検索し、現実世界を探索できるようになること

LLMをより速く、より安くする

GPT-3.5が2022年11月に登場したとき、多くの人がレイテンシと本番環境での利用コストを懸念していた
しかしレイテンシ／コスト分析はその後大きく変わった
半年も経たないうちに、コミュニティはGPT-3.5のメモリ空間の2%だけで、性能面でGPT-3.5に非常に近いモデルを作る方法を見つけた
核心: 十分に良いものが作られれば、人々はそれを速く安くする方法を見つける
4年前に整理したモデル最適化／圧縮の4つの主要技術
- Quantization（量子化）: 最も一般的なモデル最適化手法。パラメータ表現に使うビット数を減らしてモデルサイズを縮小する。32ビット浮動小数点の代わりに16ビット、さらには4ビットも使う
- Knowledge distillation（知識蒸留）: 小さなモデル（生徒）が、より大きなモデルやモデルのアンサンブル（教師）を模倣するよう学習させる
- Low-rank factorization（低ランク分解）: パラメータ数を減らすために高次元テンソルを低次元テンソルに置き換える。例えば、3x3テンソルを3x1と1x3テンソルの積に分解すれば、9個のパラメータではなく6個のパラメータで済む
- Pruning（枝刈り）
現在もこの4つの技術は有効で人気がある。Alpacaは知識蒸留を使い、QLoRAは低ランク分解と量子化の組み合わせを使った

新しいモデルアーキテクチャの設計

2012年のAlexNet以降、LSTM、seq2seqなど多くのアーキテクチャが流行しては消えていった
それに比べてTransformerは非常にしぶとい。2017年に登場し、いつまで主流であり続けるのか気になる
Transformerを上回る新しいアーキテクチャを開発するのは簡単ではない。過去6年間で徹底的に最適化されてきた
新しいアーキテクチャは、今日人々が関心を持つ規模で性能を発揮しなければならない
- TransformerはもともとTPUで高速に動くよう設計され、その後GPU向けに最適化された
2021年にはChris Réの研究室でS4を中心に大きな盛り上がりがあった。
最近も新しいアーキテクチャへの投資は続いており、直近ではスタートアップTogetherと共同でMonarch Mixerアーキテクチャを開発した

GPU代替の開発

GPUは2012年のAlexNet以降、ディープラーニング向けの支配的ハードウェア
AlexNetが人気を集めた理由の一つは、GPUを使ってニューラルネットワークを学習させた最初期の成功論文だったこと
GPU以前は、AlexNet規模のモデルを学習させるには数千個のCPUが必要だった
数千個のCPUに比べると、2基のGPUは博士課程の学生や研究者にとってはるかに手が届きやすく、ディープラーニング研究ブームを引き起こした
この10年間、大企業、スタートアップ、その他多くの企業がAI向けの新しいハードウェアを作ろうとしてきた
特に目立つのはGoogleのTPU、GraphcoreのIPU、Cerebras
SambaNovaは新しいAIチップ開発のために10億ドル以上を調達したが、生成AIプラットフォームへとピボットした
一時期は量子コンピューティングにも大きな期待が集まっており、主要プレイヤーは次の通り
- IBMのQPU
- Googleの量子コンピュータは今年初め、Natureで量子エラー低減に関する重要なマイルストーンを発表した。量子仮想マシンにはGoogle Colabからアクセスできる
- MIT量子工学センター、マックス・プランク量子光学研究所、シカゴ量子取引所、オークリッジ国立研究所など
もう一つ非常に興味深い方向性はフォトニックチップ
- 現在のチップは電気を使ってデータを移動させるため、多くの電力を消費し、レイテンシも発生する
- フォトニックチップは光子を使ってデータを移動させ、光速を活用してより高速で効率的な計算を実現する
- Lightmatter ($270M)、Ayar Labs ($220M)、Lightelligence ($200M+)、Luminous Computing ($115M)を含め、この分野のさまざまなスタートアップが数億ドル規模の資金を調達している

エージェントを実用化する

エージェントとは、インターネット検索、メール送信、予約などの作業を実行できるLLM
この記事で挙げられている他の研究方向と比べると、最も初期段階の分野と言える
新規性と莫大な潜在力のため、エージェントには熱狂的な人気がある
Auto-GPTは今やGitHub Star数基準で25番目に人気のあるRepo
GPT-Engineeringもまた別の人気リポジトリ
こうした高揚感にもかかわらず、LLMが行動する権限を委任できるほど信頼でき、十分な性能を持つのかについては依然として疑問がある
この分野で最も注目に値するスタートアップはAdept
- Transformerの共同著者2人と元OpenAI VPが設立し、これまでにほぼ5億ドルを調達

Human Preferenceによる学習改善

RLHF、Reinforcement Learning from Human Preferenceは魅力的だが、ややHackyでもある
より良い方法で人々がLLMを訓練できるようになっても不思議ではない。RLHFには次のような未解決の問いがある
- 人間の選好を数学的にどう表現するか？
  - 現在、人間の選好は比較によって決められている
  - 人間のラベラーは応答Aが応答Bより良いかを判断するが、どれほど良いかまでは考慮しない
- 人間の好みとは何か？
  - Anthropicは有用性、誠実性、無害性という3つの軸に沿ってモデル応答の品質を測定した
  - DeepMindは大多数の人を満足させる応答を生成しようとしている
  - 私たちは立場を取れるAIを望むのか、それとも議論を呼び得るテーマを避ける無難なAIを望むのか？
- 文化、宗教、政治的傾向などの違いを考えたとき、誰の選好が「人間的」な選好なのか？
潜在的な全ユーザーを十分に代表できる訓練データを得るのは非常に難しい
例えばOpenAIのInstructGPTデータでは、65歳以上のラベラーはいなかった。ラベラーは主にフィリピン人とバングラデシュ人だった
コミュニティ主導の取り組みは、意図は良くても偏ったデータにつながり得る
例えばOpenAssistantデータセットでは、回答者222人のうち201人（90.5%）が男性だと答えた

チャットインターフェースの効率向上

ChatGPT以降、チャットがさまざまな作業に適したインターフェースなのかについて多くの議論があった
これは新しい議論ではなく、アジアではチャットが約10年間スーパーアプリのインターフェースとして使われてきた
個人的には次の理由からチャットインターフェースが好き
- チャットは、これまでコンピュータやインターネットに触れてこなかった人も含め、すぐに使い方を学べるインターフェース
- チャットインターフェースはアクセシブル。手がふさがっているときはテキストの代わりに音声を使える
- チャットは信じられないほど強力なインターフェース。どんな依頼でもでき、たとえ応答が良くなくても何らかの応答は返してくれる
ただし、チャットインターフェースにはまだ改善できる領域があると思う
- 1ターンで複数メッセージ
- マルチモーダル入力
- 生成AIのワークフローへの統合
- メッセージの編集と削除

非英語圏言語向けLLMの構築

現在のEnglish-FirstなLLMは、性能、待ち時間、速度の面で他言語には十分うまく機能していない
この記事の初期読者の中には、この方向性を含めるべきではないと考える人もいた
- これは研究というより物流（Logistics）の問題に近い。方法はすでに分かっていて、あとは資金と労力を投入するだけだ、という主張
  しかしこれは事実ではない。多くの言語は低資源言語であり、英語や中国語と比べて高品質データがはるかに少なく、大規模モデルの学習には別の技術が必要かもしれない
- より悲観的な人々は、将来多くの言語が消え、インターネットが英語と中国語という2つの言語からなる2つの世界に分かれるだろうとも言う。Esperandoを覚えている人はいるだろうか？
機械翻訳やチャットボットのようなAIツールが言語学習に与える影響はまだ不明
それらは人々が新しい言語をより速く学ぶ助けになるのか、それとも新しい言語を学ぶ必要そのものを完全になくしてしまうのか？

1件のコメント

joone 2023-08-31

この記事を書いた方は、O'Reillyの『Designing Machine Learning Systems』を書いた方ですね。
翻訳版はハンビット出版社から出ています。
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220