1 ポイント 投稿者 ninebow 2024-06-24 | まだコメントはありません。 | WhatsAppで共有
  • DAIR.AIが毎週公開しているML論文の紹介記事を自動翻訳しました。

  • 今週選ばれた論文を見ると、大きく2つの主要な傾向が確認できます。まず、ほとんどの論文が自然言語処理(NLP)に関連するテーマに集中していることが分かります。中でも特に、長いコンテキストを扱う言語モデル(LM)や、情報検索および質問応答(QA)システムの効率を高めるための手法が主な関心事として浮上しています。たとえば、Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? のような論文は長文コンテキストを理解する言語モデルの可能性を探っており、PlanRAGFrom RAG to Rich Parameters は情報検索と質問応答システムを改善するための新しいアプローチを提示しています。

  • もう1つの注目すべき傾向は、言語モデルのmemorization(丸暗記現象)を緩和したり、self-refine過程を通じて性能を向上させようとする試みです。Mitigating Memorization in LLMsMonte Carlos Tree Self-Refine は、この観点で注目に値します。丸暗記現象の緩和は、言語モデルが単に訓練データをなぞるのではなく、より一般化された知識を学習し、創造的な応答を生成できるようにするうえで重要です。これは、言語モデルの実用性と有用性を最大化する鍵の1つです。

  • こうした傾向は、さまざまな要因によって後押しされていると考えられます。第一に、人工知能分野における自然言語処理の重要性が日増しに高まっており、それに向けた技術的進歩が急速に進んでいます。第二に、情報量が膨大になるにつれて、それを効果的に処理し、ユーザーに有用な情報を提供できる技術の必要性が高まっています。最後に、最近の言語モデルはますます複雑かつ強力になっていますが、そのようなモデルが直面する問題を解決するための新たなアプローチが継続的に求められています。こうした要求に応えるため、研究者たちは既存のフレームワークを超える新しいアイデアと方法論を絶えず模索しています。


Claude 3.5 Sonnet / Claude 3.5 Sonnet

論文紹介

MMLUやHumanEvalなど複数の一般的なベンチマークで最先端性能を達成した新しいモデルであり、数学の文章題解決タスクを除く複数のベンチマークでClaude 3 OpusおよびGPT-4oを上回る性能を示し、画像テキストの文字起こしやアーティファクト生成など複数の新機能を支えるビジョンタスクでも強力な性能を発揮します。

A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.

論文リンク

https://www.anthropic.com/news/claude-3-5-sonnet

さらに読む

https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665

https://x.com/AnthropicAI/status/1803790676988920098


DeepSeek-Coder-V2

論文紹介

コードおよび数学生成タスクでクローズドソースモデルと競合し、HumanEvalで90.2%、MATHで75.7%を達成。報告によれば、これらの結果はGPT-4-Turbo-0409の性能を上回っており、128Kコンテキスト長を持つ16Bおよび236Bパラメータモデルを含みます。

Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.

論文要旨 (Abstract)

コード特化タスクでGPT4-Turboに匹敵する性能を達成する、オープンソースのMixture-of-Experts(MoE)コード言語モデルであるDeepSeek-Coder-V2を紹介します。具体的には、DeepSeek-Coder-V2はDeepSeek-V2の中間チェックポイントから追加で6兆トークンを用いて継続事前学習されています。この継続事前学習により、DeepSeek-Coder-V2は一般的な言語タスクで同等の性能を維持しつつ、DeepSeek-V2のコーディング能力および数学的推論能力を大幅に向上させています。DeepSeek-Coder-33Bと比較して、DeepSeek-Coder-V2は推論能力や汎用能力だけでなく、コード関連タスクのさまざまな側面でも大きな進歩を示しています。さらに、DeepSeek-Coder-V2は対応プログラミング言語を86から338へ拡大し、コンテキスト長も16Kから128Kへ拡張しました。標準ベンチマーク評価では、DeepSeek-Coder-V2はコーディングおよび数学ベンチマークにおいて、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proなどのクローズドソースモデルを上回る性能を達成しました。

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

論文リンク

https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

さらに読む

https://github.com/deepseek-ai/DeepSeek-Coder-V2

https://x.com/omarsar0/status/1803078095219417475


TextGrad: テキストによる自動「微分」 / TextGrad: Automatic "Differentiation" via Text

論文紹介

LLMが提供するテキストフィードバックに対する逆伝播を通じて自動微分を行う新しいフレームワークで、個々の構成要素を改善し、自然言語が計算グラフの最適化を助けます。プロンプトや構成要素を調整せず、目的関数を与えるだけで動作し、GPT-4oと組み合わせた場合にGPQAでLeetCodeHard最高スコアおよびSoTA性能を達成したと主張しています。

A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.

論文要旨(Abstract)

AIは、複数の大規模言語モデル(LLM)やその他の複雑な構成要素を協調動作させるシステムによって画期的な進歩を遂げ、パラダイムシフトのただ中にあります。その結果、複合的なAIシステムのための原理的かつ自動化された最適化手法を開発することは、最も重要な新たな課題の1つとなっています。ニューラルネットワークも初期には同様の課題に直面していましたが、逆伝播と自動微分によって最適化がターンキー化され、この分野は大きく変わりました。これに着想を得て、私たちはテキストを通じて自動「微分」を行う強力なフレームワークであるTextGradを紹介します。TextGradは、LLMが提供するテキストフィードバックを逆伝播させることで、複合AIシステムの個々の構成要素を改善します。私たちのフレームワークでは、LLMはコード断片から分子構造に至るまで、計算グラフ内の変数を最適化するための豊かで汎用的な自然言語による提案を提供します。TextGradはPyTorchの構文と抽象化に従っており、柔軟で使いやすい設計です。ユーザーはフレームワークの構成要素やプロンプトを調整する必要はなく、目的関数を与えるだけで、さまざまなタスクにそのまま利用できます。質問応答や分子最適化から放射線治療計画に至るまで、多様なアプリケーションにおいてTextGradの有効性と汎用性を示します。フレームワークを変更することなく、TextGradはGoogle-Proof Question AnsweringにおけるGPT-4oのゼロショット精度を $51%$ から $55%$ に向上させ、LeetCode-Hardのコーディング問題解法の最適化で $20%$ の相対的性能向上をもたらし、推論のためのプロンプト改善、望ましい in silico 結合を持つ新しい創薬向け低分子の設計、高い特異性を持つ放射線腫瘍治療計画の設計を可能にします。TextGradは、次世代AIシステムの開発を加速するための基盤を築きます。

AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.

論文リンク

https://arxiv.org/abs/2406.07496v1

さらに読む

https://x.com/james_y_zou/status/1800917174124740667


長文コンテキスト言語モデルは検索、RAG、SQLなどを代替できるのか? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

論文紹介

コンテキスト内検索および推論に関する長文コンテキストLLMの詳細な性能分析を実施し、100万トークンのコンテキストを必要とする実世界のタスクによるベンチマークを提示しています。タスクに対する明示的な訓練がなくても、長文コンテキストLLMが最先端の検索およびRAGシステムに匹敵しうると報告しています。一方で、SQLに類似したタスクで必要となる構成的推論は、こうしたLLMにとって依然として難しいことを示唆しています。また、長文コンテキスト問題に高度なプロンプト戦略を適用すると性能が大きく向上したことから、その継続的な研究の必要性も強調しています。

Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.

論文要旨(Abstract)

長文コンテキスト言語モデル(LCLM)は、検索システムやデータベースのような外部ツールに依存してきたタスクへのアプローチを根本的に変える可能性を持っています。情報コーパス全体をネイティブに取り込み処理できるLCLMの能力を活用することで、多くの利点が得られます。ツールに関する専門知識を不要にしてユーザーの利便性を高め、複雑なパイプラインにおける連鎖的なエラーを最小化する堅牢なエンドツーエンドモデリングを提供し、システム全体にわたって高度なプロンプト技法を適用できます。このパラダイムシフトを評価するために、コンテキスト内検索および推論におけるLCLMの性能を測定するよう設計された、最大で数百万トークンのコンテキストを必要とする実世界タスクのベンチマークであるLOFTを紹介します。研究の結果、LCLMはこれらのタスクについて明示的に訓練されていないにもかかわらず、最先端の検索およびRAGシステムに匹敵する驚くべき能力を備えていることが示されました。しかし、LCLMはSQLライクなタスクで求められる合成的推論のような領域では、依然として課題を抱えています。特に、プロンプト戦略が性能に大きく影響することから、コンテキスト長が伸びるにつれて継続的な研究が必要であることが強調されます。全体として、LOFTはLCLMにとって厳密なテスト基盤を提供し、モデル能力の拡張に伴って既存のパラダイムを置き換え、新たなタスクに対応できる可能性を示しています。

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.

論文リンク

https://arxiv.org/abs/2406.13121

さらに読む

https://github.com/google-deepmind/loft

https://x.com/omarsar0/status/1804184820806766875


PlanRAG: 意思決定者としての生成型大規模言語モデルのための計画先行型検索拡張生成 / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

論文紹介

反復的な計画先行RAG(PlanRAG)という新しいRAG手法によって意思決定を改善します。これは2段階で構成されます。1)LMがデータスキーマと質問を確認して意思決定のための計画を生成し、2)リトリーバーがデータ分析のためのクエリを生成します。最後の段階では、さらなる分析のために新しい計画が必要かどうかを確認し、必要であれば前の段階を繰り返すか、データに基づいて意思決定を行います。PlanRAGは、提案されたDecision QAタスクにおいて、反復的RAGよりも効果的であることが示されました。

Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.

論文要旨(Abstract)

本論文では、複雑なデータ分析を必要とする意思決定のための解決策としてLLMを活用する研究を行っています。意思決定QAを、意思決定の質問 $Q$、ビジネスルール $R$、データベース $D$ に対して最善の決定である $d_{best}$ を答えるタスクとして定義します。意思決定QAを検証できるベンチマークが存在しないため、意思決定QAベンチマークであるDQAを提案します。このベンチマークは、意思決定QAとほぼ同じ目標を持つ2つのビデオゲーム(Europa Universalis IV と Victoria 3)から構成された、Locating と Building という2つのシナリオで成り立っています。Decision QAを効果的に扱うために、反復的な計画後検索拡張生成(PlanRAG)と呼ばれる新しいRAG手法も提案しています。PlanRAGベースのLMは、第1段階で意思決定のための計画を生成し、第2段階で検索器がデータ分析のためのクエリを生成します。提案手法は、最新の反復型RAG手法よりも、Locatingシナリオで15.8%、Buildingシナリオで7.4%それぞれ優れた性能を示しました。コードとベンチマークは https://github.com/myeon9h/PlanRAG で公開されています。

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.

論文リンク

https://arxiv.org/abs/2406.12430

さらに読む

https://github.com/myeon9h/PlanRAG

https://x.com/omarsar0/status/1803262374574448757


金魚のように覚えないで! 生成LLMにおける記憶の緩和 / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

論文紹介

次トークン予測目標を修正した「goldfish loss」により、記憶された訓練データの逐語的な生成を緩和し、訓練時に訓練トークンの疑似ランダムな部分集合を除外するシンプルな手法を用い、goldfish lossが記憶に対して耐性を持ち、モデルの有用性を維持する一方で、訓練データからより効果的に学習するにはより長い訓練が必要になる可能性があることを示しています。

Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.

論文抄録(Abstract)

大規模言語モデルは学習データを記憶して反復生成してしまうことがあり、プライバシーや著作権上のリスクを引き起こす可能性があります。記憶を緩和するために、goldfish lossと呼ばれる、次トークン学習目標へのわずかな修正を導入しました。訓練中、ランダムにサンプリングされたトークンの部分集合は損失計算から除外されます。こうして除外されたトークンはモデルに記憶されないため、訓練セット中の完全なトークン列がそのまま再現されるのを防ぐことができます。事前学習済みモデルとゼロから学習したモデルの両方について、数十億規模のLlama-2モデルを訓練する広範な実験を行い、下流ベンチマークへの影響をほとんど、あるいは全く与えずに、抽出可能な記憶量が大幅に減少することを示しました。

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.

論文リンク

https://arxiv.org/abs/2406.10209

さらに読む

https://github.com/ahans30/goldfish-loss

https://x.com/omarsar0/status/1802729440163647754


モンテカルロ木探索を通じてGPT-4レベルの数学オリンピック解法に到達する:LLaMa-3 8Bによる自己改善 / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

論文紹介

LLMとモンテカルロ木探索を統合するアプローチを用いて、GPT-4レベルの数学オリンピック解法を達成したと報告されています。このアプローチは、体系的な探索、自己改善、自己評価といった機能を通じて、システムの数学的推論性能を高めることに重点を置いています。

Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.

論文抄録(Abstract)

本ホワイトペーパーでは、複雑な数学的推論タスクの性能向上のために設計された、大規模言語モデル(LLM)とモンテカルロ木探索(MCTS)を革新的に統合した MCT Self-Refine(MCTSr)アルゴリズムを紹介します。特に、戦略的および数学的推論における LLM の精度と信頼性の課題に対処する MCTSr は、体系的な探索とヒューリスティックな自己修正メカニズムを活用して、LLM 内の意思決定フレームワークを改善します。このアルゴリズムは、選択、自己修正、自己評価、逆伝播の反復プロセスを通じてモンテカルロ探索木を構築し、改良された上側信頼限界(UCB)式を用いて探索と活用のバランスを最適化します。広範な実験により、MCTSr がオリンピックレベルの数学問題の解決に有効であることが示され、GSM8K、GSM Hard、MATH、Math Odyssey、AIME、OlympiadBench など複数のデータセットにおいて成功率を大幅に向上させました。この研究は、複雑な推論タスクにおける LLM の応用を前進させ、将来の AI 統合の基盤を築くことで、LLM 駆動アプリケーションにおける意思決定の精度と信頼性を高めます。

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

論文リンク

https://arxiv.org/abs/2406.07394v2

さらに読む

https://x.com/rohanpaul_ai/status/1801259208341373013


RAG からリッチパラメータへ:言語モデルが事実クエリにおいてパラメトリック情報より外部知識をどのように活用するかの調査 / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

論文紹介

事実クエリに対して LLM がパラメトリック情報よりも外部知識をどのように活用するかをより詳しく調査した結果、RAG パイプラインでは LLM が「近道」を取り、質問に答える際にコンテキスト情報のみを利用し、パラメトリックメモリへの依存は最小限にとどめる強いバイアスを持つことが明らかになりました。

Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.

論文要旨(Abstract)

検索拡張生成(RAG)は、言語モデルが外部コンテキストを使って推論する能力を強化し、与えられたユーザープロンプトに対する応答を補強します。このアプローチは、検索、質問応答、チャットボットなど、言語モデルのさまざまな実用的応用によって人気を高めてきました。しかし、このアプローチがどのように機能しているのかという正確な特性は、明確には理解されていませんでした。本論文では、RAG パイプラインを機械論的に調査し、言語モデルが近道を取り、質問に答える際に文脈情報のみを利用し、パラメトリックメモリへの依存は最小限にとどめる強いバイアスを持つことを明らかにします。こうした言語モデルの機械論的な挙動を、次のように検証します。(i) 因果媒介分析により、質問への回答時にパラメトリックメモリが最小限しか利用されていないことを示し、(ii) Attention Contributions と Knockouts により、最後のトークンの residual stream は質問中の主題トークンから強化されるのではなく、コンテキスト内の他の情報トークンから強化されることを示します。この顕著な近道的挙動は、LLaMa および Phi の両モデルファミリーに共通して見られることが分かりました。

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.

論文リンク

https://arxiv.org/abs/2406.12824

さらに読む

https://x.com/omarsar0/status/1803254134289895555


オープンソラ / Open-Sora

論文紹介

16秒の720p動画を生成できるオープンソースの動画生成モデル。3,000万件超のデータで学習した11億パラメータのモデルで、現在は画像から動画への生成にも対応。空間および時間圧縮のための強化拡散モデルと動画圧縮ネットワークを提供し、生成の制御性を高めるとともに学習コストを削減します。

An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.

論文リンク

[IMG] Open-Sora 1.2 Report|1028x812

さらに読む

https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794

https://x.com/omarsar0/status/1803176105010171957


言語モデルエージェントのためのツリー検索 / Tree Search for Language Model Agents

論文紹介

LMエージェントが探索を行い、多段階推論を可能にする推論時ツリー検索アルゴリズムを提案し、対話型Web環境でテストしてGPT-4oに適用することで性能を大幅に改善し、テスト時計算量を増やすと性能がスケールすることを示しています。

Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.

論文要約(Abstract)

言語モデル(LM)によって駆動される自律エージェントは、Web自動化のような意思決定タスクを実行する能力において有望性を示してきました。しかし、根本的な課題が残っています。主に自然言語の理解と生成に最適化されたLMは、現実的なコンピュータタスクを解こうとする際に、多段階推論、計画、環境からのフィードバック活用に苦戦します。この課題に対処するため、対話型Web環境においてLMエージェントが探索と多段階計画を明示的に行える推論時検索アルゴリズムを提案します。私たちのアプローチは、実際の環境空間内で動作する最良優先木探索の一種であり、既存の最先端エージェントの大半と補完的です。現実的なWebタスクで有効性を示した、LMエージェント向け初のツリー検索アルゴリズムです。難易度の高いVisualWebArenaベンチマークでは、GPT-4oエージェントの上にこの検索アルゴリズムを適用することで、検索なしの同一ベースラインと比べて成功率が39.7%相対的に向上し、26.4%という最先端の成功率を記録しました。WebArenaでも、検索はベースラインエージェントに対して28.0%の相対的改善をもたらし、19.2%の競争力ある成功率を記録しました。これらの実験は、Webエージェントに対する検索の有効性を強調するとともに、テスト時計算量の増加に伴って性能がスケールすることを示しています。私たちは結果を詳細に分析し、検索による改善点、限界、今後の研究に向けた有望な方向性を明らかにしています。

Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.

論文リンク

https://jykoh.com/search-agents/paper.pdf

さらに読む

https://jykoh.com/search-agents

https://x.com/kohjingyu/status/1803604487216701653


原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c0f


この記事はGPTモデルで要約したものであり、誤りが含まれている可能性があるため、記事下部の原文もあわせてご参照ください。お読みいただく中で不自然な点や誤った内容を見つけた場合は、コメントでお知らせいただけますと幸いです。 🤗

⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか? 会員登録していただくと、主要な記事をメール💌でお届けします!(基本はWeeklyですが、Dailyへの変更も可能です。)

まだコメントはありません。

まだコメントはありません。