[2024/03/18 ~ 03/24] 今週の主要ML論文(Top ML Papers of the Week)
(discuss.pytorch.kr)- DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。
-
今週選定された論文には、全体として大規模言語モデル(LLMs)を活用した研究が多く見られます。特に、
Tool Use in LLMs、Step-by-Step Comparisons Make LLMs Better Reasoners、LLM4Decompile、Agent-FLAN、LLMs Leak Proprietary Information、Retrieval-Augmented Fine-Tuningといったタイトルから分かるように、これらの論文はLLMsの多様な適用範囲や性能向上の手法、さらにセキュリティ問題まで扱っているようです。 -
こうした傾向は、近年AI分野でLLMsが注目を集める中、さまざまな研究分野でその活用範囲を模索しようとする取り組みの結果だと考えられます。特に、既存タスクをより効率的に処理するための方法論だけでなく、ツール利用や問題解決過程における推論能力の向上、ソフトウェアのリバースエンジニアリングのような新たな応用分野の探索、そしてモデルの安定性やセキュリティに関する研究などは、LLMsの発展可能性を広げています。また、これらの研究は、LLMsが実環境でどのように活用できるのか、そしてそれに伴う潜在的な問題点には何があるのかという理解を深めるうえで重要な役割を果たしていると言えます。
-
これに加えて、
Evolutionary Model MergeやDROIDといった論文は、モデルの統合と発展過程に関する研究を提案しており、モデル性能を継続的に改善・最適化する方法への関心が高まっていることも示しています。これはLLMsに限らず、さまざまなAI技術の発展と統合において重要な方向性を示しており、今後の研究でも引き続き重要なテーマになると予想されます。したがって、今週選定された論文は、LLMs関連研究の現在の傾向と今後の方向性について貴重な洞察を提供しています。
Grok-1
論文紹介
- ベースモデルの重みとネットワークアーキテクチャのオープン公開を含む、314BパラメータのMixture-of-Expertsモデル。MoEモデルは、与えられたトークンに対して重みの25%を活性化し、事前学習のカットオフ日は2023年10月です。
a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.
論文リンク
さらに読む
https://discuss.pytorch.kr/t/x-ai-grok/3793/1
https://x.com/ibab_ml/status/1769447989192675748
モデルマージレシピの進化的最適化 / Evolutionary Optimization of Model Merging Recipes
論文紹介
- オープンソースモデルを組み合わせるために進化を用いて基盤モデル開発を自動化するアプローチ。クロスドメインマージを促進し、日本語数学LLMがこれらのタスクについて明示的に学習されていないにもかかわらず、日本語LLMベンチマークで最先端性能を達成し、さらに大幅に多いパラメータを持つモデルさえ上回りました。
an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.
論文要旨(Abstract)
- 強力な基盤モデルの生成を自動化するための、進化アルゴリズムの新たな応用例を紹介します。モデルマージは、そのコスト効率の高さからLLM開発の有望なアプローチとして注目されていますが、現在は人間の直感とドメイン知識に依存しており、その可能性が制限されています。ここでは、この制約を乗り越えるために、大規模な追加学習データや計算資源を必要とせず、多様なオープンソースモデルの有効な組み合わせを自動的に発見し、それらの集合知を活用する進化的アプローチを提案します。このアプローチは、パラメータ空間とデータフロー空間の両方で動作するため、個々のモデルの重みを超えた最適化が可能です。このアプローチはドメイン間マージも容易にし、数理推論能力を持つ日本語LLMのようなモデルを生成することさえできます。驚くべきことに、この日本語数学LLMは、そのようなタスク向けに明示的に学習されていないにもかかわらず、既存のさまざまな日本語LLMベンチマークで最先端の性能を達成し、さらに大幅に多いパラメータを持つモデルさえ上回りました。さらに、このアプローチで生成された文化認識型日本語VLMは、日本文化に特化したコンテンツの記述において、従来の日本語VLMを上回る有効性を示しました。この研究は、新たな最先端モデルをオープンソースコミュニティに還元するだけでなく、自動化されたモデル構成の新しいパラダイムを導入し、基盤モデル開発に対する代替的で効率的なアプローチを探る道を切り開きます。
We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
論文リンク
https://arxiv.org/abs/2403.13187
さらに読む
https://x.com/SakanaAILabs/status/1770613032198279663
TacticAI: サッカー戦術のためのAIアシスタント / TacticAI: an AI assistant for football tactics
論文紹介
- リバプールFCの分野専門家と協力して開発・評価されたサッカー戦術向けAI支援システムであり、コーチに対してコーナーキックのルーティンにおける代替選手配置をサンプル探索し、成功可能性が最も高い戦術を選べる方法を提供する。TacticAIのモデル提案は既存戦術より90%のケースで好まれ、効果的なコーナーキック検索システムを提供する。
an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.
論文要旨(Abstract)
- ライバルチームが用いる戦術の主要パターンを把握し、効果的な対抗策を開発することは現代サッカーの中核です。しかし、これをアルゴリズム的に行うことは、依然として未解決の研究課題として残っています。こうした未充足のニーズに対応するため、ユニティはリバプールFCの分野専門家と緊密に連携して開発・評価したAIサッカー戦術アシスタント、TacticAIを提案します。コーチに最も直接的な介入と改善の機会を提供するコーナーキック分析に焦点を当てています。TacticAIは予測コンポーネントと生成コンポーネントの両方を統合しており、コーチが各コーナーキックルーティンについて代替の選手配置を効果的にサンプリング・探索し、成功確率が最も高いものを選択できるよう支援します。ユニティは、レシーバーとシュート試行の予測、選手ポジション調整の推奨など、さまざまなベンチマークタスクを通じてTacticAIを検証します。リバプールFCのサッカー分野専門家とともに実施した定性的研究により、TacticAIの有用性を検証しました。研究の結果、TacticAIのモデル提案は実際の戦術と見分けがつかないだけでなく、90%のケースで既存戦術より好まれ、効果的なコーナーキック検索システムを提供することが示されました。TacticAIは、ゴールドスタンダードデータの利用可能性が限られているにもかかわらず、幾何学的深層学習によってデータ効率を実現することで、これらの結果を達成しました。
Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.
論文リンク
https://www.nature.com/articles/s41467-024-45965-x
さらに読む
https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841
https://x.com/GoogleDeepMind/status/1770121564085707082
LLMにおけるツール使用 / Tool Use in LLMs
論文紹介
- ツール使用パラダイムの公式な定義、LLMがツール使用を活用するシナリオ、このアプローチが有効なタスクなど、LLMにおけるツール使用の概要を提供し、複雑なツール使用の分析とLMツーリング研究全体にわたるテストベッドおよび評価指標の要約も示します。
provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.
論文要旨 (Abstract)
言語モデル(LM)は強力ですが、主にテキスト生成タスクに用いられています。複雑なスキルを要するタスクでは、ツールによって性能が大幅に向上してきました。しかし、多くの研究で「ツール」という用語がさまざまな意味で使われており、次の疑問が生じます。そもそもツールとは何なのか。では、ツールはどこで、どのようにLMを助けるのか。本サーベイでは、ツールをLMが利用する外部プログラムとして統一的に定義し、LMにおけるツール利用のシナリオと手法を体系的にレビューします。このレビューに基づき、さまざまなツール利用手法の必要計算量と各種ベンチマークにおける性能向上を測定することで、その効率を実証的に検証し、この分野におけるいくつかの課題と今後の研究可能性を強調します。
Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.
論文リンク
https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf
さらに読む
https://x.com/omarsar0/status/1770497515898433896
RankPrompt: 段階的な比較によって言語モデルをより優れた推論器にする / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners
論文紹介
- 追加リソースなしでLLMが自ら応答を順位付けできるようにするプロンプト手法RankPromptを提案します。この自己ランキング手法は、候補を体系的な段階的比較評価によって順位付けし、比較の連鎖をデモとして生成するLLMの能力を活用するため、効果的に機能します。RankPromptは、多くの算術推論および常識推論タスクにおいて、ChatGPTとGPT-4の推論性能を大幅に向上させます。
proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.
論文要旨(Abstract)
- 大規模言語モデル(LLM)は、さまざまな推論タスクで印象的な性能を示してきました。しかし、ChatGPTのような最先端のLLMであっても、推論過程では論理的誤りを起こしやすいという問題があります。タスク特化型の検証器を導入したり、複数の推論経路に対して投票を行ったりする既存の解決策は、大量の人手によるアノテーションを必要とするか、応答に一貫性がないシナリオではうまく機能しません。こうした課題に対処するため、追加リソースなしでLLMが自ら応答を順位付けできる新たなプロンプト手法であるRankPromptを導入します。RankPromptは、順位付け問題を多様な応答同士の一連の比較へと分解し、文脈内の実例として比較の連鎖を生成するLLM本来の能力を活用します。11の算術および常識推論タスクにわたる実験の結果、RankPromptはChatGPTおよびGPT-4の推論性能を大幅に向上させ、最大13%の改善を示しました。さらに、RankPromptは自由記述タスクに対するLLMベースの自動評価でも優れた性能を示し、AlpacaEvalデータセットでは74%の割合で人間の判断と一致しました。また、応答順序や一貫性の変動に対しても頑健性を示します。これらの結果は総合的に、RankPromptが言語モデルから高品質なフィードバックを引き出す有効な手法であることを裏付けています。
Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.
論文リンク
https://arxiv.org/abs/2403.12373
さらに読む
https://x.com/omarsar0/status/1770492690129359135
LLM4Decompile: 大規模言語モデルによるバイナリコードのデコンパイル / LLM4Decompile: Decompiling Binary Code with Large Language Models
論文紹介
- 10億から33億パラメータに及ぶオープンアクセスのデコンパイルLLMファミリー。これらのモデルは40億トークンのCソースコードと対応するアセンブリコードで学習されています。著者らはまた、デコンパイルにおける再コンパイル可能性と再実行可能性を評価し、プログラム意味論の観点から評価するためのデータセット
Decompile-Evalを紹介しており、LLM4Decompile はアセンブリコードの21%をデコンパイルでき、GPT-4に比べて50%向上した性能を示しています。a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.
論文要旨(Abstract)
- デコンパイルは、コンパイル済みコードを人間が読めるソースコードへ復元することを目的としていますが、名前や構造のような詳細のため困難を伴います。大規模言語モデル(LLM)はプログラミング作業における可能性を示しており、デコンパイルへの応用を動機づけています。しかし、デコンパイル向けのオープンソースLLMは存在していません。さらに、既存のデコンパイル評価システムは主にトークンレベルの正確性を考慮しており、プログラムの最も重要な特性であるコードの実行可能性をほとんど無視しています。そこで私たちは、40億トークンのCソースコードと対応するアセンブリコードで事前学習された、10億から33億パラメータに及ぶ初のオープンアクセスなデコンパイルLLMを公開します。このオープンソースLLMは、この分野の今後の発展に向けたベースラインとして機能します。実用的なプログラム評価のために、デコンパイルにおける再コンパイル可能性と再実行可能性を考慮した初のデータセット
Decompile-Evalを紹介します。このベンチマークは、プログラム意味論の観点からデコンパイルモデルを評価する重要性を強調しています。実験の結果、LLM4Decompile はアセンブリコードの21%を正確にデコンパイルできることが示され、これは GPT-4 を50%上回る性能です。コード、データセット、モデルは https://github.com/albertan017/LLM4Decompile で公開されています。Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile
論文リンク
https://arxiv.org/abs/2403.05286v1
さらに読む
https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809
https://github.com/albertan017/LLM4Decompile
https://x.com/omarsar0/status/1771218791399092351
Agent-FLAN: 大規模言語モデルのためのデータ設計と効果的なエージェントチューニング手法 / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
論文紹介
- エージェント向け言語モデルを効果的に微調整するためのデータと手法を設計したものが Agent-FLAN であり、これにより Llama2-7B はさまざまなエージェント評価データセットで従来の最高性能を3.5%上回る性能を発揮します。Agent-FLAN は、モデルサイズを拡大した際のハルシネーション問題を大幅に緩和し、LLM全体を一般的に改善しつつ、エージェント能力を一貫して向上させます。
Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;
論文要旨(Abstract)
- オープンソースの大規模言語モデル(LLM)は、さまざまなNLPタスクで大きな成功を収めてきましたが、エージェントとして動作する場合、依然としてAPIベースのモデルに比べて大きく劣っています。エージェント能力を一般的なLLMに統合する方法は、極めて重要かつ緊急の課題となっています。本論文ではまず、3つの主要な観察結果、すなわち (1) 現在のエージェント訓練コーパスはフォーマット追従とエージェント推論の両方が絡み合っており、事前学習データの分布から大きく乖離していること、(2) LLMはエージェントタスクに必要な能力ごとに学習速度が異なること、(3) 現在のアプローチは幻覚を導入してエージェント能力を向上させる際に副作用があること、を示します。これらの知見に基づき、エージェント向けに言語モデルを効果的にファインチューニングできる Agent-FLAN を提案します。訓練コーパスを慎重に分解・再設計することで、Agent-FLAN はさまざまなエージェント評価データセットにおいて従来の最良手法を 3.5% 上回る性能を実現します。包括的に構築されたネガティブサンプルにより、Agent-FLAN は確立された評価ベンチマークに基づいて幻覚問題を大幅に緩和します。さらに、モデルサイズを拡張していく際にもLLMのエージェント能力を一貫して改善しつつ、LLMの一般的な能力もわずかに向上させます。コードは https://github.com/InternLM/Agent-FLAN で確認できます。
Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.
論文リンク
https://arxiv.org/abs/2403.12881v1
さらに読む
https://github.com/InternLM/Agent-FLAN
https://x.com/_akhaliq/status/1770302813152690259
APIで保護されたLLMのlogitsにより独自情報が漏洩する場合 / Logits of API-Protected LLMs Leak Proprietary Information
論文紹介
- logits を用いることで、APIで保護されたLLMに関する大量の非公開情報を学習できることを示しています。このアプローチでは、比較的少数のAPIクエリで OpenAI の gpt-3.5-turbo の埋め込みサイズを約4,096と推定しており、用いられた攻撃に対するガードレールも提案しています。
shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.
論文要旨(Abstract)
- 大規模言語モデル(LLM)の商用化により、独占的モデルに対する高水準のAPI専用アクセスが一般的な慣行として定着しました。この研究では、モデルアーキテクチャについて保守的な仮定を置いた場合でも、比較的少数のAPIクエリ(たとえばOpenAIのgpt-3.5-turboでは1,000ドル未満)によって、APIで保護されたLLMに関する驚くほど多くの非公開情報を学習できることを示しています。今回の研究結果の核心は、最新のLLMの多くがsoftmaxボトルネックの影響を受け、モデル出力が出力空間全体の線形部分空間に制限されるという点です。私たちは、これがモデルイメージまたはモデルシグネチャに適していることを示し、これにより、LLMの隠れ層サイズの効率的な発見、語彙全体の出力の取得、さまざまなモデル更新の検出と識別、単一の完全なLLM出力が与えられたときのソースLLMの特定、さらには出力層パラメータの推定といった複数の機能を低コストで実現できることを示します。実証的な調査を通じてこれらの手法の有効性を確認し、OpenAIのgpt-3.5-turboの埋め込みサイズがおよそ4,096であると推定できました。最後に、LLMプロバイダーがこのような攻撃を防ぐ方法と、これらの機能をバグではなく機能として捉え、透明性と説明責任を高める方法について議論します。
The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.
論文リンク
https://arxiv.org/abs/2403.09539
さらに読む
https://x.com/DimitrisPapail/status/1768654579254579385
DROID: 大規模な実環境ロボット操作データセット / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset
論文紹介
- より高性能で堅牢なロボット操作ポリシーを学習・構築するためのオープンソース大規模ロボット操作データセットで、564のシーンと86のタスクから収集された76,000件のデモ軌跡を含み、DROIDで学習するとより高性能なポリシーと一般化能力の向上につながります。
an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.
論文要旨(Abstract)
- 大規模で多様かつ高品質なロボット操作データセットの作成は、より有能で堅牢なロボット操作ポリシーへの道のりにおける重要な足がかりです。しかし、そのようなデータセットの作成は困難です。多様な環境でロボット操作データを収集することは、物流面および安全面での課題を伴い、ハードウェアと人的労働への多大な投資を必要とします。その結果、今日の最も汎用的なロボット操作ポリシーでさえ、シーンとタスクの多様性が限られた少数の環境で収集されたデータで学習されているのが大半です。本研究では、DROID(Distributed Robot Interaction Dataset)を紹介します。これは、12か月にわたり北米、アジア、ヨーロッパで50人のデータ収集者によって564のシーンと84のタスクから収集された、76,000件のデモ軌跡、あるいは350時間分のインタラクションデータを含む、多様なロボット操作データセットです。DROIDを用いた学習が、より高い性能と改善された一般化能力を持つポリシーにつながることを実証しました。データセット全体、ポリシー学習コード、およびロボットハードウェア構成を再現するための詳細なガイドをオープンソースとして公開しています。
The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.
論文リンク
https://arxiv.org/abs/2403.12945
さらに読む
https://x.com/chelseabfinn/status/1770311755140575413
RAFT: ドメイン特化型RAG向けに言語モデルを調整する / RAFT: Adapting Language Model to Domain Specific RAG
論文紹介
- RAGの利点とファインチューニングを組み合わせることで、「オープンブック」なドメイン内設定における質問応答能力を向上させ、これをRAFTのCoTスタイル応答と組み合わせることで推論の改善に役立ちます。
combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.
論文概要(Abstract)
- 大規模言語モデル(LLM)を大量のテキストデータコーパスで事前学習することは、今や標準的なパラダイムとなっています。こうしたLLMを多くのダウンストリームアプリケーションで利用する際には、RAGベースのプロンプティングまたはファインチューニングを通じて、新しい知識(たとえば速報性が重要なニュースや非公開のドメイン知識)を事前学習済みモデルに追加で組み込むのが一般的です。しかし、モデルがこのような新しい知識を獲得するための最適な方法論は、依然として未解決の課題です。本論文では、ドメイン内の「オープンブック」設定で質問に答えるモデルの能力を向上させる訓練レシピである Retrieval Augmented FineTuning(RAFT)を紹介します。RAFTでは、質問と検索された文書群が与えられたとき、質問への回答に役立たない文書、すなわち妨害文書を無視するようモデルを訓練します。RAFTは、質問への回答に役立つ関連文書から正しいシーケンスをそのまま引用することで、これを実現します。さらに、これをRAFTのチェーン・オブ・ソート(CoT)スタイルの応答と組み合わせることで、モデルの推論能力の向上に役立ちます。ドメイン特化型RAGにおいて、RAFTはPubMed、HotpotQA、Gorillaの各データセットで一貫してモデル性能を改善し、事前学習済みLLMをドメイン内RAG向けに強化するためのポストトレーニング手法を提示しています。RAFTのコードとデモは github.com/ShishirPatil/gorilla でオープンソースとして公開されています。
Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.
論文リンク
https://arxiv.org/abs/2403.10131
さらに読む
https://discuss.pytorch.kr/t/raft-rag-llm-rag-finetuning/3842
https://x.com/cwolferesearch/status/1770912695765660139
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-01b
この記事はGPTモデルで要約したものであり、誤りが含まれている可能性があるため、記事下部の原文もあわせてご参照ください。お読みの際に不自然な点や誤った内容を見つけた場合は、コメントでお知らせいただけますと幸いです。
⚠️広告⚠️: PyTorch韓国ユーザー会がまとめたこの記事は役に立ちましたか? 会員登録していただくと主要な記事をメールでお送りします! (デフォルトはWeeklyですが、Dailyへの変更も可能です。)
まだコメントはありません。