2 ポイント 投稿者 ninebow 2023-10-09 | まだコメントはありません。 | WhatsAppで共有

概要

  • DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。

  • 今週取り上げられた論文を見てみると、長期コンテキスト(Long Context)を扱う言語モデル(Language Models, LLM)に関する研究が多く見られました。特に「LLMs Represent Space and Time」「Retrieval meets Long Context LLMs」「StreamingLLM」「The Dawn of LLMs」「Training LLMs with Pause Tokens」などの論文は、LLMのさまざまな側面に光を当てています。

  • こうしたトレンドは、機械学習とディープラーニングにおいて言語モデルの重要性が引き続き高まっていることを示す代表的な例です。LLMは大量の言語データを学習し、文章生成、機械翻訳、スペル修正など、さまざまな言語理解タスクにおける全体的な性能向上を可能にする技術です。しかし、長期のコンテキストを処理することには依然として多くの困難があります。これを解決するためのさまざまなアプローチが提示されているようです。

  • また、「Neural Developmental Programs」「Recursively Self-Improving Code Generation」「Retrieval-Augmented Dual Instruction Tuning」といった論文では、AIの自己学習やコード生成、命令チューニングなどのテーマが探究されています。これは、AIにおいてさらに新しい方法論が登場していることを示しており、こうした研究はAI技術の自己学習能力と適応性を高めるうえで非常に重要な役割を果たすと期待されます。

  • したがって、今週の論文トレンドは、言語モデルの長期コンテキスト処理と、AIの自己学習およびコード生成分野における新たな研究方向を示していると言えます。


空間と時間を表現する言語モデル / Language Models Represent Space and Time

論文紹介

  • 言語モデルが複数のスケールにわたって空間と時間の線形表現を学習し、これらの表現はプロンプトの変化に対して頑健で、さまざまなエンティティ型にまたがって統一されていることを発見し、言語モデルは表面的な統計ではなく文字通りの世界モデルを学習していると主張しながら、空間や時間のような基本的な構造化知識を獲得していることを実証しました。 #llm #llama2

    Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.

論文要旨

  • 大規模言語モデル(LLM)の能力は、こうしたシステムが表面的な統計の膨大な集積を学習しているだけなのか、それともデータ生成過程の一貫したモデル、すなわち世界モデルを学習しているのかという議論を呼んでいます。私たちは、Llama-2モデルファミリーにおける3つの空間データセット(世界、米国、ニューヨーク市の場所)と3つの時間データセット(歴史上の人物、美術作品、ニュース見出し)の学習済み表現を分析することで、後者を支持する証拠を見いだしました。その結果、LLMが複数のスケールにわたって空間と時間の線形表現を学習していることが分かりました。これらの表現は、さまざまなプロンプト変化に対して頑健であり、異なるエンティティ型(たとえば都市やランドマーク)にまたがって統一されています。さらに、空間座標と時間座標を安定してエンコードする個別の「空間ニューロン」と「時間ニューロン」も特定しました。私たちの分析は、現代のLLMが空間や時間のような基本次元に関する構造化知識を獲得しており、単なる表面的な統計ではなく、文字通りの世界モデルを学習しているという見方を裏づけています。

    The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual space neurons'' and time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

論文リンク

https://arxiv.org/abs/2310.02207

さらに読む

https://x.com/wesg52/status/1709551516577902782


検索と長文脈大規模言語モデルの出会い / Retrieval meets Long Context Large Language Models

論文紹介

  • ダウンストリームタスクに対する検索拡張と長いコンテキストウィンドウを比較し、両者を組み合わせることで双方の利点を得られるかを調査します。シンプルなRAGを用いる4KコンテキストウィンドウのLLMは、16Kコンテキストを持つファインチューニング済みLLMに匹敵する性能を達成でき、検索は拡張コンテキストウィンドウのサイズに関係なくLLMの性能を大きく向上させる可能性があり、32Kコンテキストウィンドウを持つ検索拡張Llama2-70bは、質問応答やクエリベースの要約を含む7つの長文脈タスクでgpt-3.5-turbo-16kを上回ります。 #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm

    Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.

論文要旨

  • 大規模言語モデル(LLM)のコンテキストウィンドウを拡張することは近年人気を集めていますが、検索によってLLMを強化するソリューションは数年前から存在していました。自然な問いは、i) 検索拡張と長いコンテキストウィンドウのどちらがダウンストリームタスクにより適しているのか、ii) 2つの手法を組み合わせて両方の利点を得ることはできるのか、という点です。本研究では、最先端の事前学習済みLLMである独自の43B GPTとLLaMA2-70Bの2つを用いて両方のソリューションを検討することで、これらの問いに答えます。驚くべきことに、生成時に単純な検索拡張を用いる4KコンテキストウィンドウのLLMは、長文コンテキストタスクにおいて、位置補間によって16Kコンテキストウィンドウを持つように微調整されたLLMと同等の性能を達成しつつ、計算量ははるかに少ないことがわかりました。さらに重要なのは、拡張されたコンテキストウィンドウサイズに関係なく、検索がLLMの性能を大幅に向上させられることを実証した点です。32Kコンテキストウィンドウを使用する検索拡張LLaMA2-70Bは、質問応答やクエリベース要約などを含む7つの長文コンテキストタスクにおいて、平均スコアでGPT-3.5-turbo-16kおよびDavinci003を上回ります。また、非検索のLLaMA2-70B-32kベースラインも大差で上回り、生成速度もはるかに高速です。本研究は、実務者が検索拡張と長文コンテキスト拡張のどちらを選ぶべきかを検討する際に役立つ一般的なインサイトを提供します。
    > Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

論文リンク

https://arxiv.org/abs/2310.03025

さらに読む

https://x.com/omarsar0/status/1709749178199318545


アテンションシンクを備えた効率的なストリーミング言語モデル / Efficient Streaming Language Models with Attention Sinks

論文紹介

  • 初期トークンのkv状態がウィンドウアテンションの性能を大きく回復させる現象であるアテンションシンクを備えた、効率的なストリーミングLLMを可能にするフレームワーク。アテンションシンクの出現は初期トークンに対する強いアテンションスコアに起因しており、このアプローチを使うことで、有限長のアテンションウィンドウで学習されたLLMが追加の微調整なしに無限のシーケンス長へ一般化できるようになります。 #streamingllm
    > A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.

論文要旨

  • 長いインタラクションが想定されるマルチラウンド対話のようなストリーミングアプリケーションに大規模言語モデル(LLM)をデプロイすることは急務ですが、2つの主要な課題があります。第一に、デコーディング段階で以前のトークンのキーおよびバリュー状態(KV)をキャッシュするために大量のメモリを消費する点です。第二に、広く使われているLLMは学習シーケンス長を超える長さのテキストには一般化できません。最新のKVだけをキャッシュするウィンドウアテンションは自然なアプローチですが、テキスト長がキャッシュサイズを超えると破綻することが示されました。初期トークンのKVを保持するとウィンドウアテンションの性能が大きく回復するという興味深い現象、すなわち attention sink が観測されます。本論文ではまず、attention sink の出現は、それらが意味的に重要でなくても、初期トークンが「sink」として高い注意スコアを受けることに起因することを示します。以上の分析に基づき、有限長のアテンションウィンドウで学習されたLLMを、追加のファインチューニングなしで無限のシーケンス長へ一般化できる効率的なフレームワークである StreamingLLM を紹介します。StreamingLLM により、Llama-2、MPT、Falcon、Pythia が最大400万トークン以上でも安定かつ効率的な言語モデリングを行えることを示します。さらに、事前学習中にプレースホルダートークンを専用の attention sink として追加すると、ストリーミングでのデプロイをさらに改善できることも発見しました。ストリーミング設定では、StreamingLLM はスライディングウィンドウ再計算ベースラインと比べて最大22.2倍高速です。コードとデータセットは https://github.com/mit-han-lab/streaming-llm で公開されています。
    > Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.

論文リンク

https://arxiv.org/abs/2309.17453

さらに読む

https://x.com/Guangxuan_Xiao/status/1708943505731801325

https://discuss.pytorch.kr/t/…


神経発達プログラムを通じた人工ニューラルネットワークの自己組立に向けて / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

論文紹介

  • 生物学的有機体の胚発生の特性を反映する発達過程(神経発達プログラムと呼ばれる)を通じて自己組立するニューラルネットワークの利用を提案し、連続制御問題および成長するトポロジーにおいてこのアプローチの実現可能性を示します。
    > Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.

論文要旨

  • 生物学的な神経システムは、現在の人工ニューラルネットワークとは根本的に異なる方法で作られています。ディープラーニングはさまざまな領域で印象的な成果を示している一方で、高性能な神経アーキテクチャを設計するには相当なエンジニアリング上の労力を要することが少なくありません。これに対して生物学的神経系は、動的な自己組織化プロセスを通じて成長します。この論文では、生物の胚発生の主要な特性を反映する発達プロセスを通じて成長するニューラルネットワークに向けた初期的な一歩を示します。成長プロセスは、Neural Developmental Program(NDP)と呼ばれる別のニューラルネットワークによって導かれ、このネットワークは局所的な通信のみによって動作します。さまざまな機械学習ベンチマークと多様な最適化手法(進化的学習、オンラインRL、オフラインRL、教師あり学習)において、神経成長の役割を調査します。さらに、ニューラルネットワークの成長を駆動する自己組織化によって可能になる将来の研究方向と機会についても考察します。
    > Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.

論文リンク

https://arxiv.org/abs/2307.08197

さらに読む

https://x.com/risi1979/status/1708888992224362742


LMMの黎明期: GPT-4V(ision)を用いた予備的探索 / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

論文紹介

  • 大規模マルチモーダルモデル(LMM)への理解を深めるためにgpt-4vを包括的に分析し、さまざまなアプリケーションシナリオにおけるgpt-4vのプロービングに焦点を当て、ビジョン付きのコード機能から検索拡張LMMまで多様な例を提供します。 #multimodal #gpt-4v
    > A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.

論文要旨

  • 大規模マルチモーダルモデル(LMM)は、視覚理解のような多感覚能力を大規模言語モデル(LLM)に拡張することで、より強力な汎用知能を実現します。本論文では、最新モデルであるGPT-4V(ision)を分析し、LMMへの理解を深めます。この分析は、GPT-4Vが実行可能な興味深いタスクに焦点を当てており、GPT-4Vの能力の品質と汎用性、サポートされる入力と動作モード、そしてモデルを効果的に導くプロンプト方法を調べるためのテストサンプルを含んでいます。GPT-4Vを探索する私たちのアプローチでは、多様な領域とタスクにまたがる、注意深く設計された定性的サンプルのコレクションをキュレーションし、整理します。これらのサンプルから得られた観察結果は、任意に入り組んだマルチモーダル入力を処理するGPT-4Vの前例のない能力と、その機能の汎用性が組み合わさることで、GPT-4Vが強力なマルチモーダル汎用システムとなり得ることを示しました。さらに、入力画像上に描かれた視覚的マーカーを理解するGPT-4V独自の能力は、visual referring promptingのような新しい人間・コンピュータ相互作用の方法を生み出し得ます。本レポートは、新たな応用シナリオとGPT-4Vベースのシステムに関する今後の研究方向についての掘り下げた議論で締めくくられます。この予備的探索が、次世代のマルチモーダルなタスク定式化、現実世界の問題解決のためにLMMを活用・強化する新たな方法、そしてマルチモーダル基盤モデルへのより良い理解に関する今後の研究にインスピレーションを与えることを期待しています。
    > Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.

論文リンク

https://arxiv.org/abs/2309.17421

さらに読む

https://x.com/omarsar0/status/1708860551110041871

https://discuss.pytorch.kr/t/gn-chatgpt/2543


話す前にまず考えよう: 一時停止トークンによる言語モデル学習 / Think before you speak: Training Language Models With Pause Tokens

論文紹介

  • 学習可能な <pause> トークンを用いてLLMの学習および推論を行い、モデルの回答生成を遅らせることで、常識的な質問応答や数学の文章題解決といった一般的な理解タスクで性能向上を実現するのに役立ちます。実験の結果、この効果は事前学習と下流のファインチューニングの両方で遅延が導入された場合にのみ得られることが示されました。 #pause-for-thought

    Performs training and inference on llms with a learnable <pause> token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.

論文要旨

  • 言語モデルは、一連のトークンを連続的に生成することで応答を作ります。$(K+1)^{th}$ トークンは、各レイヤーで $K$ 個の隠れベクトル、すなわち先行する各トークンにつき1つのベクトルを操作した結果です。では、モデルが $(K+1)^{th}$ トークンを出力する前に、$K+10$ 個の隠れベクトルを操作できるようにしたらどうでしょうか。このアイデアは、入力接頭辞に付加される列である学習可能な $\textit{pause}$ トークンを用いて、言語モデルの学習と推論を行うことで実現されます。次に、最後の一時停止トークンが現れるまでモデル出力の取り出しを遅らせることで、モデルが答えを確定する前に追加の計算を処理できるようにします。私たちは、C4で因果的事前学習を行った1Bおよび1億3000万パラメータのデコーダ専用モデルと、推論、質問応答、一般理解、事実想起を含む下流タスクにおいて、$\textit{pause-training}$ を実証的に評価します。主な発見は、モデルが遅延付きで事前学習され、さらにファインチューニングされた場合に、推論時の遅延が性能向上を示すことです。1Bモデルでは、9タスク中8タスクで改善が見られ、特にSQuADのQAタスクで $EM\ スコアが\ 18%$、CommonSenseQAで $8%$、GSM8kの推論タスクで正解率が $1%$ 向上しました。私たちの研究は、遅延付き次トークン予測を広く適用可能な新しいパラダイムにするための、概念的および実践的な今後の研究課題を数多く提起しています。

    Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

論文リンク

https://arxiv.org/abs/2310.02226

さらに読む

https://x.com/omarsar0/status/1709573238123122959


自己学習型最適化ツール(STOP): 再帰的に自己改善するコード生成 / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

論文紹介

  • 言語モデルを組み込んだスキャフォールディングプログラムを使って再帰的に自己改善する手法を提案しています。シード改善器はまず最良の解を返す入力プログラムを改善し、その後さらに追加のタスクによって自分自身を改善します。また、gpt-4モデルが自分自身を改善するために自分自身を呼び出せるコードを書けることを示しています。 #self-training-survey-paper

    Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.

論文要旨

  • 近年のAIシステムにおけるいくつかの進展(例: Tree-of-Thoughts や Program-Aided Language Models)は、言語モデルへの複数回の呼び出しを構造化してより良い出力を生成する「スキャフォールディング」プログラムを提供することで問題を解決します。スキャフォールディング・プログラムは Python のようなプログラミング言語で記述されます。この研究では、言語モデルを組み込んだスキャフォールディング・プログラムを使って、自らを改善します。まず、言語モデルに複数回問い合わせて最適な解を返すことで、与えられたユーティリティ関数に従って入力プログラムを改善するシード「improver」から始めます。次に、このシード improver を実行して自分自身を改善します。少数のダウンストリーム・タスク群にわたって、こうして改善された improver は、シード improver よりも大幅に優れた性能を持つプログラムを生成します。その後、ビームサーチ、遺伝的アルゴリズム、シミュレーテッド・アニーリングなど、言語モデルが提案したさまざまな自己改善戦略を分析します。言語モデル自体は変更されていないため、完全な再帰的自己改善ではありません。それでも、概念実証実験において、最新の言語モデルである GPT-4 が、自身を改善するために自分自身を呼び出せるコードを書けることを示しています。私たちは自己改善技術の開発に関する懸念を批判的に検討し、生成されたコードがサンドボックスを回避する頻度を評価します。
    > Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.

論文リンク

https://arxiv.org/abs/2310.02304

さらに読む

https://x.com/ericzelikman/status/1709721771937587541


RA-DIT: 検索拡張デュアル命令チューニング / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

論文紹介

  • 検索機能を備えたニューラルネットワーク向けの軽量なファインチューニング手法を提案します。1) 事前学習済みニューラルネットワークを更新して検索された情報をより適切に活用できるようにし、2) リトリーバーを更新して、より関連性の高い結果を返すようにする、という2段階のアプローチを含みます。結果は、知識活用と文脈認識の両方を必要とするタスクに対するファインチューニングにおいて、各段階が追加の改善をもたらすことを示しています。65bモデルは、さまざまな知識集約型のゼロショットおよび少数ショット学習ベンチマークで最先端の結果を達成し、既存の検索拡張言語アプローチより最大 +8.9% 高い性能を示します。ゼロショットでは +8.9%、5-shot では +1.4% です。 #rag #instruct-tuning
    > Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.

論文要旨

  • 検索拡張言語モデル(RALM)は、外部データストアのロングテールかつ最新の知識にアクセスすることで性能を向上させますが、構築は容易ではありません。既存のアプローチでは、LMの事前学習に対して高コストな検索特化の修正を加えるか、データストアの事後統合を用いる必要があり、その結果として性能が最適化されません。私たちは、検索機能を備えた任意のLLMを後付けで改修できる第3の選択肢として、軽量なファインチューニング手法である検索拡張デュアル命令チューニング(RA-DIT)を紹介します。Unityのアプローチは2つの異なるファインチューニング段階で動作します。(1) 取得した情報をより効果的に活用できるよう事前学習済みLMを更新する段階、(2) LMの好みに応じてより関連性の高い結果を返すようリトリーバを更新する段階です。知識活用と文脈認識の両方を必要とするタスクでファインチューニングを行うことで、各段階が大きな性能向上をもたらし、両段階を併用することで追加の改善が得られることを示しました。最高性能のモデルであるRA-DIT 65Bは、さまざまな知識集約型のゼロショットおよび少数ショット学習ベンチマークで最先端性能を達成し、既存のインコンテキストRALMアプローチを平均で0ショット設定では最大+8.9%、5ショット設定では+1.4%上回ります。
    > Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.

論文リンク

https://arxiv.org/abs/2310.01352

さらに読む

https://x.com/omarsar0/status/1709204756013490494


Kosmos-G: マルチモーダル大規模言語モデルを用いた文脈に即した画像生成 / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

論文紹介

  • 複数画像にまたがる一般化されたビジョン・言語入力から高忠実度のゼロショット画像生成を行い、ゼロショットの被写体駆動型画像生成をマルチエンティティのシナリオへ拡張し、CLIPを置き換えることで、ControlNet、LoRAなど他のU-Net技術による新たなアプリケーションを可能にするモデルです。 #multimodal
    > A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.

論文要約

  • 近年、テキストから画像への生成(T2I)および視覚言語から画像への生成(VL2I)技術は大きく進展しました。しかし、特に複数の画像を含む一般化された視覚言語入力からの生成は、依然として十分に研究されていません。本論文では、この課題に対処するため、マルチモーダル大規模言語モデル(MLLM)の高度な知覚能力を活用するモデル、Kosmos-Gを紹介します。私たちのアプローチでは、テキストモダリティをアンカーとして用いてMLLMの出力空間をCLIPと整合させ、選別されたデータに対して構成的な命令チューニングを実施します。Kosmos-Gは、ゼロショットのマルチエンティティ被写体駆動型生成という独自の能力を示します。特に、スコア蒸留命令チューニングでは画像デコーダの修正を必要としません。そのため、CLIPをシームレスに置き換え、きめ細かな制御からパーソナライズされた画像デコーダの派生形まで、無数のU-Net技術と容易に統合できます。私たちはKosmos-Gを、「画像生成における外国語としての画像」という目標に向けた初期的な試みだと位置づけています。
    > Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."

論文リンク

https://arxiv.org/abs/2310.02992

さらに読む

https://x.com/omarsar0/status/1709934741158510625


類推推論者としての大規模言語モデル / Large Language Models as Analogical Reasoners

論文紹介

  • このアプローチは、推論プロセスに対するラベル付きの例を必要としない点でチェーン・オブ・ソートとは異なり、類推推論に着想を得て、文脈の中で関連する例や知識を自ら生成するよう促す新しいプロンプト手法です。 #llm-reasoning #chain-of-thought
    > llmの推論プロセスを自動的に導くための新しいプロンプト手法。この手法は、推論プロセスのラベル付き例を必要としない点でchain-of-thoughtと異なり、類推推論に着想を得て、文脈内で関連する例や知識をlm自身に生成させる。

論文要旨

  • 言語モデルに対する連鎖的思考(CoT)プロンプティングは、推論タスク全般で印象的な性能を示していますが、通常は推論過程のラベル付き例を必要とします。本研究では、大規模言語モデルの推論過程を自動的に導くよう設計された新しいプロンプト手法である、類推プロンプティングを紹介します。人間が新しい問題を解くために関連する過去の経験を活用する認知過程である類推推論に着想を得たこのアプローチは、与えられた問題を解く前に、言語モデルに文脈に即した例や知識を自ら生成させるよう促します。この手法には、例にラベル付けしたり検索したりする必要がなく、汎用性と利便性を提供すること、さらに生成された例や知識を各問題に合わせて調整できるため、適応性も提供することなど、いくつかの利点があります。実験結果によれば、このアプローチは、GSM8KおよびMATHにおける数学問題解決、Codeforcesにおけるコード生成、BIG-Benchにおけるその他の推論タスクなど、さまざまな推論タスクで0-shot CoTおよび手動のfew-shot CoTを上回る性能を示しました。
    > Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

論文リンク

https://arxiv.org/abs/2310.01714

さらに読む

https://x.com/michiyasunaga/status/1709582150025240854

原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9

まだコメントはありません。

まだコメントはありません。