- LLM分野で語られている主要な課題10項目と、追加学習のためのリンク集
ハルシネーションの低減と測定
- 企業がLLMを採用する際の最大の障壁はハルシネーション
- ハルシネーションを緩和し測定するための指標を開発することは人気の研究テーマであり、多くのスタートアップが注力している
- ハルシネーションを減らすための暫定的なコツとして、プロンプトにコンテキストを追加する、Chain-Of-Thought、Self-Consistency、モデルに簡潔な回答を求める、などがある
コンテキスト長とコンテキスト構成の最適化
- ほとんどの質問にはコンテキストが必要
- SituatedQA論文によれば、情報検索の質問のかなりの部分はコンテキストによって回答が変わる(NQ-Openデータセットの16.5%が該当)
- 企業の事例でははるかに高いはず(顧客サポートのチャットボットなら、その顧客の履歴や製品情報がコンテキスト)
- コンテキスト長はRAG(Retrieval Augmented Generation)で特に重要
- RAGは2段階で動作
- チャンキング(インデキシング): LLMで使用するすべての文書を収集。埋め込みを生成し、LLMに投入するためにチャンクへ分割し、埋め込みをベクターDBに保存
- クエリ: ユーザーがクエリを送ると、LLMがクエリを埋め込みに変換。ベクターデータベースから埋め込みに最も近いチャンクを取得
- コンテキスト長が長いほど、より多くのチャンクを入れられる。モデルがアクセスできる情報が増えれば応答も良くなるのではないか?
- しかし常にそうとは限らない。モデルが利用するコンテキスト量と、そのモデルがコンテキストをどれだけ効率的に使えるかは別の問題
- モデルのコンテキスト長を伸ばす努力とともに、コンテキストを効率化するための取り組みもある
- プロンプトエンジニアリング、またはプロンプト構築と呼ばれる
- 例えば最近の論文では、モデルはコンテキストの中間よりも最初や最後にある情報をよりよく理解することが示されている
他のデータモダリティの統合
- Multimodalityは非常に強力だが、まだ過小評価されている
- 重要な理由
- 医療、ロボティクス、eコマース、小売、ゲーム、エンターテインメントなど、多様なデータを扱う事例がある
- 医学的予測にはテキスト(医師のノート、アンケート)と画像(CT、X-Ray、MRI)が必要
- 製品メタデータには画像、動画、説明文、表形式データが含まれる
- マルチモダリティはモデル性能の大幅な向上をもたらす
- テキストだけを理解するモデルより、テキストと画像を理解できるモデルのほうが性能が高い
- テキストベースのモデルには膨大なテキストデータが必要なため、近いうちにモデル学習に必要なインターネット上のデータが枯渇するのではないかという懸念もある
- テキストが不足したら、他のデータモダリティを活用しなければならない
- 特に期待していること: 視覚障害のある人々がマルチモダリティを通じてインターネットを検索し、現実世界を探索できるようになること
LLMをより速く、より安くする
- GPT-3.5が2022年11月に登場したとき、多くの人がレイテンシと本番環境での利用コストを懸念していた
- しかしレイテンシ/コスト分析はその後大きく変わった
- 半年も経たないうちに、コミュニティはGPT-3.5のメモリ空間の2%だけで、性能面でGPT-3.5に非常に近いモデルを作る方法を見つけた
- 核心: 十分に良いものが作られれば、人々はそれを速く安くする方法を見つける
- 4年前に整理したモデル最適化/圧縮の4つの主要技術
- Quantization(量子化): 最も一般的なモデル最適化手法。パラメータ表現に使うビット数を減らしてモデルサイズを縮小する。32ビット浮動小数点の代わりに16ビット、さらには4ビットも使う
- Knowledge distillation(知識蒸留): 小さなモデル(生徒)が、より大きなモデルやモデルのアンサンブル(教師)を模倣するよう学習させる
- Low-rank factorization(低ランク分解): パラメータ数を減らすために高次元テンソルを低次元テンソルに置き換える。例えば、3x3テンソルを3x1と1x3テンソルの積に分解すれば、9個のパラメータではなく6個のパラメータで済む
- Pruning(枝刈り)
- 現在もこの4つの技術は有効で人気がある。Alpacaは知識蒸留を使い、QLoRAは低ランク分解と量子化の組み合わせを使った
新しいモデルアーキテクチャの設計
- 2012年のAlexNet以降、LSTM、seq2seqなど多くのアーキテクチャが流行しては消えていった
- それに比べてTransformerは非常にしぶとい。2017年に登場し、いつまで主流であり続けるのか気になる
- Transformerを上回る新しいアーキテクチャを開発するのは簡単ではない。過去6年間で徹底的に最適化されてきた
- 新しいアーキテクチャは、今日人々が関心を持つ規模で性能を発揮しなければならない
- TransformerはもともとTPUで高速に動くよう設計され、その後GPU向けに最適化された
- 2021年にはChris Réの研究室でS4を中心に大きな盛り上がりがあった。
最近も新しいアーキテクチャへの投資は続いており、直近ではスタートアップTogetherと共同でMonarch Mixerアーキテクチャを開発した
GPU代替の開発
- GPUは2012年のAlexNet以降、ディープラーニング向けの支配的ハードウェア
- AlexNetが人気を集めた理由の一つは、GPUを使ってニューラルネットワークを学習させた最初期の成功論文だったこと
GPU以前は、AlexNet規模のモデルを学習させるには数千個のCPUが必要だった
数千個のCPUに比べると、2基のGPUは博士課程の学生や研究者にとってはるかに手が届きやすく、ディープラーニング研究ブームを引き起こした
- この10年間、大企業、スタートアップ、その他多くの企業がAI向けの新しいハードウェアを作ろうとしてきた
- 特に目立つのはGoogleのTPU、GraphcoreのIPU、Cerebras
- SambaNovaは新しいAIチップ開発のために10億ドル以上を調達したが、生成AIプラットフォームへとピボットした
- 一時期は量子コンピューティングにも大きな期待が集まっており、主要プレイヤーは次の通り
- IBMのQPU
- Googleの量子コンピュータは今年初め、Natureで量子エラー低減に関する重要なマイルストーンを発表した。量子仮想マシンにはGoogle Colabからアクセスできる
- MIT量子工学センター、マックス・プランク量子光学研究所、シカゴ量子取引所、オークリッジ国立研究所など
- もう一つ非常に興味深い方向性はフォトニックチップ
- 現在のチップは電気を使ってデータを移動させるため、多くの電力を消費し、レイテンシも発生する
- フォトニックチップは光子を使ってデータを移動させ、光速を活用してより高速で効率的な計算を実現する
- Lightmatter ($270M)、Ayar Labs ($220M)、Lightelligence ($200M+)、Luminous Computing ($115M)を含め、この分野のさまざまなスタートアップが数億ドル規模の資金を調達している
エージェントを実用化する
- エージェントとは、インターネット検索、メール送信、予約などの作業を実行できるLLM
- この記事で挙げられている他の研究方向と比べると、最も初期段階の分野と言える
- 新規性と莫大な潜在力のため、エージェントには熱狂的な人気がある
- Auto-GPTは今やGitHub Star数基準で25番目に人気のあるRepo
- GPT-Engineeringもまた別の人気リポジトリ
- こうした高揚感にもかかわらず、LLMが行動する権限を委任できるほど信頼でき、十分な性能を持つのかについては依然として疑問がある
- この分野で最も注目に値するスタートアップはAdept
- Transformerの共同著者2人と元OpenAI VPが設立し、これまでにほぼ5億ドルを調達
Human Preferenceによる学習改善
- RLHF、Reinforcement Learning from Human Preferenceは魅力的だが、ややHackyでもある
より良い方法で人々がLLMを訓練できるようになっても不思議ではない。RLHFには次のような未解決の問いがある
- 人間の選好を数学的にどう表現するか?
- 現在、人間の選好は比較によって決められている
- 人間のラベラーは応答Aが応答Bより良いかを判断するが、どれほど良いかまでは考慮しない
- 人間の好みとは何か?
- Anthropicは有用性、誠実性、無害性という3つの軸に沿ってモデル応答の品質を測定した
- DeepMindは大多数の人を満足させる応答を生成しようとしている
- 私たちは立場を取れるAIを望むのか、それとも議論を呼び得るテーマを避ける無難なAIを望むのか?
- 文化、宗教、政治的傾向などの違いを考えたとき、誰の選好が「人間的」な選好なのか?
- 潜在的な全ユーザーを十分に代表できる訓練データを得るのは非常に難しい
例えばOpenAIのInstructGPTデータでは、65歳以上のラベラーはいなかった。ラベラーは主にフィリピン人とバングラデシュ人だった
- コミュニティ主導の取り組みは、意図は良くても偏ったデータにつながり得る
例えばOpenAssistantデータセットでは、回答者222人のうち201人(90.5%)が男性だと答えた
チャットインターフェースの効率向上
- ChatGPT以降、チャットがさまざまな作業に適したインターフェースなのかについて多くの議論があった
- これは新しい議論ではなく、アジアではチャットが約10年間スーパーアプリのインターフェースとして使われてきた
- 個人的には次の理由からチャットインターフェースが好き
- チャットは、これまでコンピュータやインターネットに触れてこなかった人も含め、すぐに使い方を学べるインターフェース
- チャットインターフェースはアクセシブル。手がふさがっているときはテキストの代わりに音声を使える
- チャットは信じられないほど強力なインターフェース。どんな依頼でもでき、たとえ応答が良くなくても何らかの応答は返してくれる
- ただし、チャットインターフェースにはまだ改善できる領域があると思う
- 1ターンで複数メッセージ
- マルチモーダル入力
- 生成AIのワークフローへの統合
- メッセージの編集と削除
非英語圏言語向けLLMの構築
- 現在のEnglish-FirstなLLMは、性能、待ち時間、速度の面で他言語には十分うまく機能していない
- この記事の初期読者の中には、この方向性を含めるべきではないと考える人もいた
- これは研究というより物流(Logistics)の問題に近い。方法はすでに分かっていて、あとは資金と労力を投入するだけだ、という主張
しかしこれは事実ではない。多くの言語は低資源言語であり、英語や中国語と比べて高品質データがはるかに少なく、大規模モデルの学習には別の技術が必要かもしれない
- より悲観的な人々は、将来多くの言語が消え、インターネットが英語と中国語という2つの言語からなる2つの世界に分かれるだろうとも言う。Esperandoを覚えている人はいるだろうか?
- 機械翻訳やチャットボットのようなAIツールが言語学習に与える影響はまだ不明
それらは人々が新しい言語をより速く学ぶ助けになるのか、それとも新しい言語を学ぶ必要そのものを完全になくしてしまうのか?
1件のコメント
この記事を書いた方は、O'Reillyの『Designing Machine Learning Systems』を書いた方ですね。
翻訳版はハンビット出版社から出ています。
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220