[2023/10/16 ~ 10/22] 今週の主要ML論文 (Top ML Papers of the Week)
(discuss.pytorch.kr)概要
-
DAIR.AIが毎週公開しているML論文の記事を自動翻訳してみました。
-
今週選ばれた論文の主要トレンドは大きく2つで、1つ目はオープンドメイン対話システム(Open domain dialog system)と、人工知能が自ら説明を生成したり問題を解いていけるようにする研究論文です。
-
オープンドメイン対話システムは、人工知能システムがユーザーと自然に会話できるようにする技術であり、"OpenAgents"、"LLMs for Software Engineering"、"Eliciting Human Preferences with LLMs" などの論文でテーマとして扱われていました。こうした論文は、ユーザーとの対話を通じて人工知能システムが自律的に学習し発展できる方法を研究しています。
-
また、人工知能が自ら説明を生成したり問題を解いていく研究は、"A Study of LLM-Generated Self-Explanations"、"Self-RAG"、"Retrieval-Augmentation for Long-form Question Answering" などの論文で扱われていました。これらの論文の主な目標は、人工知能が問題を解いたり説明を生成したりする過程を、ユーザーが理解できるよう透明にすることです。このトレンドは、人工知能をより透明で広く利用可能な技術にしていく研究の重要性を考えると、自然な流れに見えます。
Llemma(レマ): 数学のためのオープン言語モデル / Llemma: An Open Language Model For Mathematics
論文紹介
- Proof-Pile-2データセットに対してCode Llamaを継続事前学習した、数学向けのLlemmaモデル。科学論文、数学を含むWebデータ、数学コードを含むデータセット、数学ベンチマークにおいて、オープンベースモデルと未公開のMinervaより優れた性能を示し、実験を再現するためのデータセットとコードを含めてモデルを公開。 #mathglm #
An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.
論文要旨
- 数学のための大規模言語モデルLlemmaを紹介します。科学論文、数学を含むWebデータ、数学コードを混合したProof-Pile-2でCode Llamaを継続的に事前学習し、Llemmaを構築しました。MATHベンチマークにおいて、Llemmaは同等パラメータ条件で、既知のすべてのオープンベースモデルと未公開のMinervaモデル群を上回る性能を示しました。さらにLlemmaは、追加のファインチューニングなしでもツール使用と形式的定理証明が可能です。70億および340億パラメータのモデル、Proof-Pile-2、実験を再現するコードを含むすべてのアーティファクトを公開します。
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
論文リンク
https://arxiv.org/abs/2310.10631
さらに読む
https://x.com/zhangir_azerbay/status/1714098025956864031
ソフトウェアエンジニアリングのための大規模言語モデル: サーベイと未解決問題 / Large Language Models for Software Engineering: Survey and Open Problems
論文紹介
- 公開研究課題と技術的課題を含む、ソフトウェアエンジニアリング向けLLMの包括的なサーベイ論文
A comprehensive survey of llms for software engineering, including open research and technical challenges.
論文要旨
- 本論文では、ソフトウェアエンジニアリング(SE)のための大規模言語モデル(LLM)という新たな領域に関する調査を提供します。また、ソフトウェアエンジニアが直面する技術的問題にLLMを適用するための公開研究課題も提示します。LLMの創発的特性は、コーディング、設計、要件、修正、リファクタリング、性能改善、文書化、分析を含むソフトウェアエンジニアリング活動全般に新規性と創造性をもたらします。しかし、こうした創発的特性は同時に重大な技術的課題も引き起こし、幻覚のような誤った解決策を確実に排除できる技術が必要です。このサーベイは、信頼性が高く、効率的で効果的なLLMベースSEの開発と展開において、ハイブリッド技術(従来のSEとLLM)の役割がいかに重要であるかを示しています。
This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.
論文リンク
https://arxiv.org/abs/2310.03533
さらに読む
https://x.com/omarsar0/status/1713940983199506910
Self-RAG: 自己省察を通じて検索・生成・批評を学習する / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
論文紹介
- 検索と自己反省を通じてLMの品質と事実性を向上させる新しい検索拡張フレームワークを提示し、必要に応じてパッセージを適応的に検索し、特殊なリフレクショントークンを用いてパッセージと自身の生成内容を生成・反映するLMを学習させ、事実性の改善を含むオープンドメインQA、推論、ファクト検証タスクにおいてSOTAのLLM(ChatGPTおよび検索拡張Llama2-chat)を大きく上回る性能を示します。 #rag
> Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.
論文要約
- 優れた能力にもかかわらず、大規模言語モデル(LLM)は、内部に保持されたパラメトリックな知識のみに依存しているため、事実と異なる不正確な応答を生成することが少なくありません。関連知識の検索によってLMを補強するアドホックな手法である検索拡張生成(RAG)は、こうした問題を軽減できます。しかし、検索が必要かどうか、あるいはパッセージに関連性があるかどうかにかかわらず、固定数の検索済みパッセージを無差別に取得して統合すると、LMの汎用性を損なったり、有用でない応答の生成につながったりする可能性があります。私たちは、検索と自己反省を通じてLMの品質と事実性を向上させる新しいフレームワーク、自己反省型検索拡張生成(Self-RAG)を導入しました。Facebookのフレームワークは、必要に応じてパッセージを適応的に検索する単一の任意のLMを学習させ、リフレクショントークンと呼ばれる特殊トークンを用いて、検索されたパッセージと自身の生成内容を生成・反映します。リフレクショントークンを生成することで、推論段階でLMを制御できるようになり、多様なタスク要件に合わせて挙動を調整できます。実験の結果、Self-RAG(7Bおよび13Bパラメータ)は、多様なタスクセットにおいて最先端のLLMおよび検索拡張モデルを大幅に上回る性能を示しました。特に、Self-RAGはオープンドメインQA、推論、ファクト検証タスクでChatGPTおよび検索拡張Llama2-chatを上回り、これらのモデルと比べて長文生成における事実性と引用精度の向上で大きな利点を示しています。
> Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.
論文リンク
https://arxiv.org/abs/2310.11511
さらに読む
https://x.com/AkariAsai/status/1715110277077962937
長文形式の質問応答のための検索拡張を理解する / Understanding Retrieval Augmentation for Long-Form Question Answering
論文紹介
- 長文形式の質問応答における検索拡張言語モデルを調査し、検索は重要な構成要素である一方、証拠文書はLLMに慎重に追加されるべきであることを示し、検索された文書に質問へ答えるための十分な情報・証拠が欠けている場合、アトリビューションエラーがより頻繁に発生することを明らかにしています。
> Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.
論文要約
- 長文形式の質問応答における検索拡張言語モデル(LM)に関する研究を発表します。同一の根拠文書を用いてモデルが生成した回答を比較することで、検索拡張が異なるLMにどのような影響を与えるか、また検索文書セットの品質の違いが同一LMで生成された回答にどのような影響を与えるかを分析します。生成された回答のさまざまな属性(例: 流暢さ、長さ、分散)を調べ、特に文脈内の根拠文書に対する長文回答の帰属に重点を置きます。回答の帰属に関する人手アノテーションを収集し、帰属を自動判定する手法を評価します。この研究は、検索拡張がLMによる知識豊富な長文生成にどのような影響を与えるかについて新たな洞察を提供します。さらに、長文生成における帰属パターンを特定し、帰属エラーの主な原因を分析します。これらの分析により、検索拡張が知識豊富な長文生成にどのような影響を与えるかを明らかにし、今後の研究の方向性を示します。
> We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.
論文リンク
https://arxiv.org/abs/2310.12150
さらに読む
https://x.com/omarsar0/status/1714986431859282144
GenBench
論文紹介
- NLPの一般化研究を特徴づけて理解するためのフレームワークを提示し、543本の論文に対するメタ分析と、一般化研究を探索しより深く理解するためのツールセットを含みます。
> Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.
論文リンク
https://nature.com/articles/s42256-023-00729-y/…
さらに読む
https://x.com/AIatMeta/status/1715041427283902793
大規模言語モデルは自分自身を説明できるか? LLMが生成する自己説明の研究 / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
論文紹介
- 機能帰属の説明を自己生成するLLMの能力を評価します。自己説明はLLMの性能と真実性の向上に有用であり、この能力はChain-of-Thoughtプロンプティングと併用できます。 #chain-of-thought
> Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.
論文要旨
- ChatGPTのような大規模言語モデル(LLM)は、感情分析、数学的推論、要約など、さまざまな自然言語処理(NLP)タスクで優れた性能を示してきました。さらに、これらのモデルは「有用な」応答を生成するよう人間との対話データで指示チューニングされているため、応答とともに説明を生成でき、しばしば自己説明と呼ばれる説明を出力します。たとえば、映画レビューの感情を分析する際、モデルは感情のポジティブさだけでなく説明も出力できます(たとえば、レビュー内の「fantastic」「memorable」など感情を帯びた単語を列挙する形です)。このように自動生成された自己説明は、どの程度正確なのでしょうか。本論文では、解釈可能性の文献で最も一般的に研究されている設定の一つである感情分析タスクと特徴帰属説明について、この問いを調査します(ChatGPT以前のモデルを対象とする場合)。具体的には、自己説明を引き出すさまざまな方法を研究し、一連の評価指標に基づいてその忠実性を評価し、オクルージョンやLIMEのサリエンシーマップといった従来の説明手法と比較します。広範な実験を通じて、ChatGPTの自己説明は従来の説明と同等の性能を示す一方、さまざまな一致指標ではかなり異なっており、しかも予測と同時に生成されるため生成コストがはるかに低いことが分かりました。さらに、いくつかの興味深い特性も確認され、ChatGPT(および類似の)LLM時代における現在の多くのモデル解釈可能性の実践を見直す必要性が示されました。
> Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.
論文リンク
https://arxiv.org/abs/2310.11207
さらに読む
https://x.com/omarsar0/status/1714665747752923620
OpenAgents(オープンエージェンツ): 野生環境の言語エージェントのためのオープンプラットフォーム / OpenAgents: An Open Platform for Language Agents in the Wild
論文紹介
- データ分析のためのデータエージェント、200以上の日次APIツールを備えたプラグインエージェント、自律的なWebブラウジングのためのWebエージェントという3種類のエージェントを含む、オープンな言語エージェントの利用およびホスティングのためのプラットフォームです。
> An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.
論文要旨
- 言語エージェントは、多様な環境における多様で複雑なタスクに自然言語を活用できる可能性を示しており、特に大規模言語モデル(LLM)を基盤として構築された場合にその傾向が顕著です。現在の言語エージェントフレームワークは、概念実証レベルの言語エージェントの構築を容易にすることを目指している一方で、非専門家によるエージェントへのアクセスを軽視し、アプリケーションレベルの設計にはほとんど注意を払っていません。私たちは、日常生活の中で言語エージェントを利用・ホスティングできるオープンプラットフォームである OpenAgents を紹介します。OpenAgents には3種類のエージェントが含まれます。(1) Python/SQL およびデータツールを用いたデータ分析向けの Data Agent、(2) 200種類以上の日常的な API ツールを備えた Plugins Agent、(3) 自律的なウェブ閲覧のための Web Agent。一般ユーザーは、高速な応答と一般的な障害に最適化された Web ユーザーインターフェースを通じてエージェント機能とやり取りでき、開発者や研究者には、ローカル環境でシームレスなデプロイ体験を提供することで、革新的な言語エージェントの開発と実世界での評価を促進する基盤を提供します。私たちは、将来の実用的な言語エージェントの研究開発に向けた土台を築くことを目指し、課題と機会を明確に説明します。
> Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.
論文リンク
https://arxiv.org/abs/2310.10634v1
さらに読む
https://x.com/ChengZhoujun/status/1714343204148113860
言語モデルで人間の選好を引き出す / Eliciting Human Preferences with Language Models
論文紹介
- 言語モデルを用いてタスク指定プロセスを導き、学習フレームワークによって、ユーザーとの自由形式の言語ベースの対話を通じてモデルが意図された行動を引き出し推論できるよう支援し、さらにオープンエンドな質問を生成することで、システムがユーザー作成のプロンプトよりも多くの情報を含む応答を生成することを示します。
> Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.
論文要旨
- 言語モデル(LM)は、ラベル付きの例や自然言語プロンプトを用いて、対象タスクを実行するよう指示できます。しかし、例を選んだりプロンプトを書いたりすることは難しい場合があり、とりわけ特殊なエッジケースを含むタスク、曖昧な選好を正確に表現する必要があるタスク、あるいはLMの挙動について正確なメンタルモデルが必要なタスクではなおさらです。私たちは、タスク仕様化のプロセスを導くために、LMそのものを使うことを提案します。本論文では、モデルがユーザーとの自由形式の言語ベースの相互作用を通じて意図された振る舞いを引き出し、推論する学習フレームワークである「Generative Active Task Elicitation(GATE)」を紹介します。GATEは、メールの妥当性検証、コンテンツ推薦、道徳的推論の3つの領域で検証されています。事前登録された実験では、オープンエンドな質問を生成したり、有益なエッジケースを合成したりするなどの方法でGATEを実行するよう促されたLMが、ユーザー自身が書いたプロンプトやラベルよりも、しばしばより有益な応答を引き出すことを示しました。ユーザーは、対話的なタスク抽出のほうが、プロンプト作成や例のラベル付けよりも少ない労力で済み、当初は予想していなかった新たな考慮事項が明らかになると報告しています。今回の研究結果は、LM主導の引き出しが、複雑な人間の選好や価値観にモデルを適合させるための強力な手段になり得ることを示唆しています。
> Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.
論文リンク
https://arxiv.org/abs/2310.11589
さらに読む
https://x.com/AlexTamkin/status/1715040019520569395
AutoMix: 言語モデルの自動混合 / AutoMix: Automatically Mixing Language Models
論文紹介
- 小規模な言語モデルの正確性に基づいてクエリをllmsへルーティングするアプローチ(少数ショットの自己検証によって実行)。検証器の出力(通常はより小さなモデル)を確認し、必要に応じてクエリをより大規模な言語モデルへルーティングするメタ検証器を導入します。5つのコンテキスト依存推論データセットでllama2-13/70bを用いた実験では、AutoMixは既存のベースラインを上回り、コスト当たりの増分利益を最大89%改善することが示されています。
> An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.
論文要旨
- 現在、クラウドAPIプロバイダーからは、さまざまなサイズや構成の大規模言語モデル(LLM)が利用可能になっています。この多様性によって選択肢は大きく広がりましたが、計算コストと性能を最適化するためにそれらの選択肢を効果的に活用することは、依然として難しい課題です。本研究では、小規模LMの出力のおおよその正確さに基づいて、クエリをより大規模なLMへ戦略的にルーティングする手法であるAutoMixを紹介します。AutoMixの中核となるのは、学習を必要とせずに自らの出力の信頼性を推定する少数ショット自己検証メカニズムです。検証にはノイズが含まれる可能性があるため、AutoMixではこれらの評価の精度を高めるためにメタ検証器を用います。5つのコンテキスト依存推論データセットについてLLAMA2-13/70Bを用いた実験の結果、AutoMixは既存のベースラインを上回り、コスト当たりの増分利益を最大89%まで改善することが示されました。コードとデータは https://github.com/automix-llm/automix で公開されています。
> Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.
論文リンク
https://arxiv.org/abs/2310.12963
さらに読む
https://x.com/omarsar0/status/1715385477627334718
ビデオ言語計画 / Video Language Planning
論文紹介
- 提案されたアルゴリズムは、ビジョン言語モデルを方策および価値関数として、テキスト・動画モデルを動的モデルとして学習させる木探索手順を通じて、ロボティクス分野全般にわたり複雑で長期的なビデオ計画を合成できます。
> Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.
論文要旨
- 私たちは、インターネット規模のデータで事前学習された大規模生成モデルの最近の進展を活用し、生成された動画と言語の空間において、複雑な長期タスクのための視覚的計画を可能にすることに関心があります。そのために、木探索手順で構成されるアルゴリズムであるビデオ言語計画(VLP)を紹介します。このアルゴリズムでは、(i) 方策と価値関数の役割を果たす視覚言語モデルを学習し、(ii) 動力学モデルとしてテキスト・動画モデルを学習します。VLPは、長期タスクの指示と現在の画像観測を入力として受け取り、最終タスクをどのように完了するかを説明する詳細なマルチモーダル(動画と言語)仕様を提供する長いビデオ計画を出力します。VLPは、計算予算の増加に応じてスケールし、計算時間が長くなるほどビデオ計画が改善されます。また、多物体の再配置から、複数カメラを用いた双腕の器用な操作まで、さまざまなロボティクス領域にわたって長期的なビデオ計画を合成できます。生成されたビデオ計画は、生成動画の各中間フレームを条件とする目標条件付き方策を通じて、実際のロボット動作へと変換できます。実験の結果、VLPはシミュレーションロボットと実機ロボットの両方において(3つのハードウェアプラットフォームで)、従来手法と比べて長期タスクの成功率を大幅に向上させることが示されました。
> We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
論文リンク
https://arxiv.org/abs/2310.10625
さらに読む
https://x.com/du_yilun/status/1714297584842318157
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8
まだコメントはありません。