[2023/09/04 ~ 09/10] 今週の主要ML論文(Top ML Papers of the Week)
(discuss.pytorch.kr)概要
DAIR.AIが毎週公開しているML論文の紹介記事を自動翻訳してみました。
今回の論文は、主にTransformerと強化学習(Reinforcement Learning)を中心とした人工知能技術に関するものが多く見られます。
サポートベクターマシンとしてのTransformer / Transformers as Support Vector Machines
論文紹介
- Transformerにおける自己注意の最適化幾何がハードマージンSVM問題と関連していることを発見し、早期停止なしで適用された勾配降下が自己注意の暗黙的正則化と収束につながることを示しており、この研究は言語モデルへの理解を深める可能性を持っています。
> Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.
論文要旨
- "Attention Is All You Need"の登場以来、TransformerアーキテクチャはNLPに革命的な進歩をもたらしてきました。Transformer内の注意層は、入力トークン列 $X$ を受け取り、学習可能なキー・クエリパラメータである $(K,Q)$ によって、softmax $(XQK^\top X^\top)$ として計算されるペアごとの類似性を通じて相互作用させます。本研究では、自己注意の最適化幾何と、トークン対の外積に対する線形制約を用いて最適な入力トークンと非最適なトークンを分離するハードマージンSVM問題との間に、形式的な同値性を確立します。この形式化により、勾配降下で最適化された1層Transformerの暗黙的バイアスを特徴づけることができます。(1) $(K,Q)$ でパラメータ化され、正則化がゼロに近づく注意層の最適化は、結合パラメータ $W=KQ^\top$ の核ノルムを最小化するSVM解へと方向収束します。一方で、$W$ で直接パラメータ化すると、フロベニウスノルム目的を最小化します。私たちはこの収束を特徴づけ、それが大域的に最適な方向ではなく、局所的に最適な方向へ向かって起こりうることを強調します。(2) これを補完する形で、適切な幾何学的条件の下で勾配降下の局所的/大域的な方向収束を証明します。重要なのは、過剰パラメータ化がSVM問題の実行可能性を保証し、停留点のない良性の最適化ランドスケープを保証することで、大域的収束を促進することを示している点です。(3) 私たちの理論は主に線形予測ヘッドに適用されますが、非線形ヘッドにおける暗黙的バイアスを予測する、より一般的なSVM同値性も提案します。私たちの知見は任意のデータセットに適用可能であり、その妥当性は実験によって検証されます。また、いくつかの未解決問題と研究の方向性も提示します。これらの知見は、Transformerを最適なトークンを分離・選択するSVMの階層構造として解釈する発想を促すものだと考えています。
> Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
論文リンク
https://arxiv.org/abs/2308.16898
RLAIF: 人間フィードバックによる強化学習をAIフィードバックで拡張する / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
論文紹介
- 人間とAIのフィードバックの有効性を比較することで、RLAIFがRLHFの適切な代替手段となるかを検証し、さまざまな技術を用いてAIラベルを生成してスケーリング研究を実施し、整合した選好生成のための最適な設定を報告しています。主な結果として、要約タスクでは人間の評価者が約70%のケースで、ベースラインのSFTモデルよりもRLAIFとRLHFの両方による生成を好むことが示されています。 #rlhf
> Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.
論文要旨
- 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に合わせるのに効果的ですが、高品質な人間の選好ラベルを収集することが主なボトルネックです。人間の代わりに既製のLLMが選好ラベルを付与する技術であるRLHFとRLAIF(RL from AI Feedback)を直接比較した結果、両者が同程度の改善効果をもたらすことが確認されました。要約タスクでは、人間の評価者は約70%のケースで、ベースラインの教師ありファインチューニングモデルよりもRLAIFとRLHFの生成を好みました。さらに、RLAIFとRLHFの要約を比較評価するよう求めたところ、人間は両者を同じ割合で好みました。これらの結果は、RLAIFが人間レベルの性能を発揮し得ること、そしてRLHFのスケーラビリティ上の限界に対する潜在的な解決策を提供し得ることを示唆しています。
> Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
論文リンク
https://arxiv.org/abs/2309.00267
さらに読む
https://twitter.com/omarsar0/status/1699102486928265530
計算機なしでも数学の問題を解けるGPT / GPT Can Solve Mathematical Problems Without a Calculator
論文紹介
- 十分な学習データがあれば、2b言語モデルはデータリークなしで100%の精度で多桁の算術演算を実行でき、さらに追加の多段階算術演算と詳細な数学問題を含むデータセットでGLM-10bをファインチューニングした場合、5,000サンプルの中国語数学問題テストセットでGPT-4とも競合できることを示しています。 #mathematical-reasoning #wizardmath
> Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.
論文要旨
- 従来の研究では、一般に大規模言語モデルは計算機ツールを使わない限り、算術演算、特に8桁を超える乗算や小数・分数を含む演算を正確に実行できないと想定されてきました。本論文は、この誤解に異議を唱えることを目的としています。十分な学習データがあれば、20億パラメータの言語モデルがデータリークなしでほぼ100%の精度で多桁の算術演算を正確に実行でき、これは多桁乗算の精度が4.3%にすぎないGPT-4を大きく上回る水準です。さらに、多段階の算術演算とテキストで記述された数学問題を追加したデータセットでGLM-10BをファインチューニングしたMathGLMが、5,000サンプルの中国語数学問題テストセットでGPT-4に類似した性能を達成したことも示しています。
> Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
論文リンク
https://arxiv.org/abs/2309.03241
さらに読む
https://twitter.com/_akhaliq/status/1699951105927512399
オプティマイザとしての大規模言語モデル / Large Language Models as Optimizers
論文紹介
- 最適化問題を自然言語で記述し、定義された問題と以前に見つかった解に基づいて新しい解を反復的に生成するようLLMに指示し、各最適化ステップで以前に生成されたプロンプトの軌跡に基づいてテスト精度を高める新しいプロンプトを生成し、最適化されたプロンプトはGSM8KおよびBig-Bench Hardで人間が設計したプロンプトをときに50%以上上回るアプローチです #optimizing
> An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%
論文要旨
- 最適化は至るところに存在します。微分ベースのアルゴリズムはさまざまな問題に対して強力な手法として使われてきましたが、勾配が存在しないことにより、多くの実世界アプリケーションでは課題が生じます。本研究では、最適化タスクを自然言語で記述し、大規模言語モデル(LLM)を最適化器として活用するシンプルかつ効果的な手法である OPRO(Optimization by PROmpting)を提案します。各最適化ステップでは、LLM が過去に生成された解とその値を含むプロンプトから新しい解を生成し、その後新しい解を評価して、次の最適化ステップのためのプロンプトに追加します。まず線形回帰と巡回セールスマン問題に対して OPRO を示し、その後、タスク精度を最大化する指示を見つけることを目的とするプロンプト最適化へと進みます。さまざまな LLM を用いた結果、OPRO によって最適化された最良のプロンプトは、人手で設計されたプロンプトよりも GSM8K で最大 8%、Big-Bench Hard タスクで最大 50% 高い性能を示すことを実証しています。
> Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
論文リンク
https://arxiv.org/abs/2309.03409
さらに読む
https://twitter.com/omarsar0/status/1700249035456598391
ImageBind-LLM: マルチモダリティ命令チューニング / ImageBind-LLM: Multi-modality Instruction Tuning
論文紹介
- ImageBind を通じた LLM のマルチモーダル命令チューニング手法である ImageBind-LLM を提示します。このモデルは、学習可能な bind network を通じて ImageBind の visual encoder を LLM にアラインすることで、高品質な言語生成を含め、音声、3D point cloud、動画など多様なモダリティの命令に応答できます。 #imagebind
> Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.
論文要旨
- ImageBindを介した大規模言語モデル(LLM)のマルチモダリティ命令チューニング手法であるImageBind-LLMを紹介します。既存研究は主に言語と画像の命令チューニングに焦点を当ててきましたが、ImageBind-LLMは画像・テキストのアラインメント学習だけで、音声、3Dポイントクラウド、動画、埋め込み空間演算などのマルチモダリティ条件に対応できます。学習過程では、LLaMAとImageBindの画像エンコーダの間で埋め込み空間を整列させるために、学習可能なbind networkを採用します。次に、bind networkによって変換された画像特徴をLLaMAの全レイヤーにある単語トークンへ加え、attentionを必要としないゼロ初期化ゲーティング機構によって視覚的な指示を段階的に注入します。ImageBindの共同埋め込みにより、シンプルな画像・テキスト学習だけでモデルは優れたマルチモダリティの命令追従能力を発揮できます。推論中は、マルチモダリティ入力が対応するImageBindエンコーダに投入され、追加のクロスモーダル埋め込み強化のために提案されたvisual cache modelによって処理されます。学習不要のcache modelは、ImageBindから抽出した300万件の画像特徴から検索を行い、学習時と推論時のモダリティ不一致を効果的に緩和します。特にこのアプローチにより、ImageBind-LLMは多様なモダリティの命令に応答し、高い言語生成品質を示すことができます。コードは https://github.com/OpenGVLab/LLaMA-Adapter で公開されています。
> We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
論文リンク
https://arxiv.org/abs/2309.03905
さらに読む
https://twitter.com/arankomatsuzaki/status/1699947731333345750
回路効率によるgrokkingの説明 / Explaining grokking through circuit efficiency
論文紹介
- ニューラルネットワークのgrokking挙動の説明を目指し、特に2つの新しい挙動を予測して示しています。1つ目は、臨界しきい値より小さいデータセットでさらに学習すると、モデルが完全な汎化から記憶へ移行するungrokkingです。2つ目は、臨界データセットサイズでランダム初期化されたネットワークを学習すると、ネットワークがgrokkingに似た遷移を示すsemi-grokkingです。 #grokking
> Aims to explain grokking behavior in neural networks; specifically, it predicts and shows two novel behaviors: the first is ungrokking where a model goes from perfect generalization to memorization when trained further on a smaller dataset than the critical threshold; the second is semi-grokking where a network demonstrates grokking-like transition when training a randomly initialized network on the critical dataset size.
論文要旨
- ニューラルネットワークの汎化における最も驚くべき謎の1つが「grokking」です。これは、学習精度は完璧だが汎化性能の低いネットワークが、追加学習によって完全な汎化へと移行する現象です。私たちは、タスクに汎化解と記憶解の両方が存在する場合に grokking が起こると提案します。このとき汎化解は学習速度こそ遅いものの、より効率的であり、同じパラメータノルムでより大きなロジットを生成します。さらに、記憶回路は学習データセットが大きくなるほど非効率になる一方で、汎化回路はそうならないという仮説を立て、記憶と汎化が同程度に効率的になる臨界データセットサイズが存在することを示唆します。私たちは grokking について4つの新たな予測を提示し、それを検証することで、この説明を支持する重要な証拠を示しました。とりわけ注目すべきことに、ネットワークが完全なテスト精度から低いテスト精度へと後退する「ungrokking」と、完全なテスト精度ではなく部分的な汎化へと遅れて到達する「semi-grokking」という、2つの新しく驚くべき挙動を実証しました。
> One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
論文リンク
https://arxiv.org/abs/2309.02390
さらに読む
https://twitter.com/VikrantVarma_/status/1699823229307699305
AIによる欺瞞:事例、リスク、潜在的な解決策の調査 / AI Deception: A Survey of Examples, Risks, and Potential Solutions
論文紹介
- 人工知能による欺瞞の経験的事例を調査したサーベイです。 #survey論文
> Provides a survey of empirical examples of ai deception.
論文要旨
- 本論文は、現在のさまざまな人工知能システムが人間を欺く方法を学習していると主張します。ここで私たちは、欺瞞を「真実とは異なる何らかの結果を追求するために、誤った信念を体系的に誘導すること」と定義します。まず、AIによる欺瞞の経験的事例を調査し、特定の競争状況のために構築された専用AIシステム(MetaのCICEROを含む)と、汎用AIシステム(大規模言語モデルなど)の両方を論じます。次に、詐欺、選挙操作、AIシステムに対する統制の喪失など、AIによる欺瞞がもたらすいくつかのリスクを詳述します。最後に、AIによる欺瞞が引き起こす問題に対する潜在的な解決策をいくつか概説します。第一に、規制フレームワークは、欺瞞を行う能力を持つAIシステムに対して強固なリスク評価要件を課すべきです。第二に、政策立案者は bot-or-not 法を導入すべきです。最後に、政策立案者は、AIによる欺瞞を検知するツールやAIシステムの欺瞞性を低減するツールを含む関連研究への資金提供を優先すべきです。政策立案者、研究者、そして一般市民は、AIによる欺瞞が私たちの社会の共有基盤を不安定化させることを防ぐため、積極的に取り組む必要があります。
> This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
論文リンク
https://arxiv.org/abs/2308.14752
さらに読む
https://twitter.com/DanHendrycks/status/1699437800301752332
FLM-101B: オープンLLMと10万ドル予算での学習方法 / FLM-101B: An Open LLM and How to Train It with $100K Budget
論文紹介
- 101Bのパラメータと0.31TBのトークンを持ち、10万ドルの予算で学習可能な新しいオープンLLMであるFLM-101Bについて、著者らはさまざまな成長戦略を分析し、パラメータ数を小さい規模から大きい規模へと増やしていくことで、最終的にコストを50%以上削減する積極的な戦略を採用しています。つまり、3つのモデルを順次学習させ、それぞれのモデルがより小さい前段のモデル(16b -> 51b -> 101b)の知識を継承しながら、競争力のある性能を達成しています。
> A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.
論文要旨
- 大規模言語モデル(LLM)は、自然言語処理およびマルチモーダルタスクで目覚ましい成功を収めています。こうした成功にもかかわらず、大規模言語モデルの開発は、(i) 高い計算コスト、(ii) 公正かつ客観的な評価を行うことの難しさ、という2つの主要な課題に直面しています。LLMの学習には莫大なコストがかかるため、それを実施できるのは少数の大手プレイヤーに限られ、研究と応用の機会の両方を制約しています。これは、費用対効果の高いLLM学習の重要性を強調しています。本論文では、LLMの学習コストを大幅に削減できる成長戦略を活用します。101Bのパラメータと0.31TBのトークンを持つLLMを10万ドルの予算で学習できることを示します。さらに、知識中心の能力をより重視する既存の評価を補完するため、LLMのIQ評価に向けた体系的な評価パラダイムを採用します。シンボリックマッピング、ルール理解、パターンマイニング、干渉耐性など、知能の重要な側面を評価するベンチマークを導入します。これらの評価は、記憶の潜在的な影響を最小限に抑えます。実験結果によると、10万ドルの予算で学習したモデルFLM-101Bは、特に学習データに存在しない文脈を含むIQベンチマーク評価において、GPT-3やGLM-130Bなどの強力で広く知られたモデルに匹敵する性能を達成しています。FLM-101Bのチェックポイントは https://huggingface.co/CofeAI/FLM-101B でオープンソースとして公開されます。
> Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
論文リンク
https://arxiv.org/abs/2309.03852
さらに読む
https://twitter.com/omarsar0/status/1700156132700963053
言語エージェントのための認知アーキテクチャ / Cognitive Architectures for Language Agents
論文紹介
- プロダクションシステムと認知アーキテクチャの類似点を踏まえ、完全な言語エージェントを理解し構築するための体系的なフレームワークを提案し、そのフレームワークにおける言語エージェントの実例として、言語ベースの推論、グラウンディング、学習、意思決定のための多様な手法を体系化しています。
> Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.
論文要旨
- 最近の取り組みでは、グラウンディングや推論を必要とするタスクのために、大規模言語モデル(LLM)を外部リソース(例:インターネット)や内部制御フロー(例:プロンプトチェーン)と統合しています。しかし、こうした取り組みの多くは断片的であり、完全な言語エージェントを構築するための体系的なフレームワークが欠けていました。この課題に対処するため、私たちは記号的人工知能におけるエージェント設計の豊かな歴史を基盤として、新しい認知言語エージェントの青写真を提示します。まず、LLM がプロダクションシステムと多くの同じ性質を持っており、そのグラウンディングや推論を改善しようとする最近の試みは、プロダクションシステムを中心に構築された認知アーキテクチャの発展を反映していることを示します。次に、フレームワーク内での言語エージェントの具体化として、LLM ベースの推論、グラウンディング、学習、意思決定の多様な手法を体系化する概念的フレームワークである、言語エージェントのための認知アーキテクチャ(Cognitive Architectures for Language Agents, CoALA)を提案します。最後に、CoALA フレームワークを用いて不足している部分を明らかにし、将来より高性能な言語エージェントに向けた実行可能な方向性を提案します。
> Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.
論文リンク
https://arxiv.org/abs/2309.02427
さらに読む
https://twitter.com/ShunyuYao12/status/1699396834983362690
Q-Transformer
論文紹介
- 人間によるデモと自律的に収集したデータを活用し、大規模なオフラインデータセットからマルチタスク方策を学習するスケーラブルな RL 手法で、現実世界の多様なロボット操作タスク群において優れた性能を示します。
> A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.
論文リンク
https://q-transformer.github.io/
さらに読む
https://twitter.com/YevgenChebotar/status/1699909244743815677
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88
- この記事は GPT モデルで自動要約した説明であり、内容に誤りが含まれる可能性があるため、原文をご参照ください!
- お読みいただく中で不自然な点や誤った内容を見つけた場合は、コメントでお知らせいただけますと幸いです! ♂️
まだコメントはありません。