1 ポイント 投稿者 ninebow 2024-02-05 | まだコメントはありません。 | WhatsAppで共有

概要

  • DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳しました。

  • 今週選定された論文の傾向を見ると、大規模言語モデル(Large Language Models, LLMs)およびその派生形に関する研究が際立っています。"OLMo"、"Advances in Multimodal LLMs"、"Corrective RAG"、"LLMs for Mathematical Reasoning"、"Compression Algorithms for LLMs"、"MoE-LLaVA"、"Rephrasing the Web"、"Redefining Retrieval in RAG"、"Hallucination in LVLMs"、"SliceGPT" といった論文タイトルから、言語モデルの性能向上、応用拡張、効率性向上に焦点を当てた研究が活発であることが分かります。

  • こうした研究傾向は、言語処理技術の限界を克服し、より複雑な問題を解決しようとする学術界と産業界の継続的な努力を反映した結果と解釈できます。近年、LLMsは単純なテキスト処理を超えて、複雑な数学的推論、マルチモーダルデータ処理、より高度な情報検索および再構成など、さまざまな領域へと応用範囲を広げています。また、これらのモデルの大規模さと複雑さゆえに、モデル圧縮のような技術は、モデルを実環境でより効率的に配備し利用できるようにする中核要素となっています。比較的少ないリソースで大規模モデルを運用しなければならない場合、こうした技術の重要性はますます高まっています。

  • また、'Multimodal LLMs' と 'MoE-LLaVA' に関する研究は、テキスト以外のさまざまな形式のデータ(例: 画像、音声など)を統合して処理する方式の発展を意味しており、これは人工知能システムが現実世界の情報をより豊かに理解し活用できる可能性を示しています。モデルの解釈可能性および信頼性を高める手法として、'Corrective RAG' と 'Redefining Retrieval in RAG' は、モデルの推論過程とその結果の正確性を改善しようとする試みと見なすことができ、モデルが生成するコンテンツの質を高める研究としては 'Hallucination in LVLMs' と 'Rephrasing the Web' が代表的です。これらすべての傾向は、来たる未来において、より知的で洗練された人工知能システムが登場することを予告するシグナルとして評価されます。


OLMo: 言語モデル科学の加速 / OLMo: Accelerating the Science of Language Models

論文紹介

  • オープン学習コード、オープンデータ、完全なモデル重み、評価コード、ファインチューニングコードを含む7bパラメータモデルであるオープン言語モデル(OLMo)を導入しており、多くの生成タスクで強力な性能を示します。より小さいバージョンとして olmo 1b もあります。

    Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

論文要旨(Abstract)

  • 言語モデル(LM)は、NLP研究と商用製品の両方において広く普及しています。言語モデルの商業的重要性が急速に高まるにつれて、最も強力なモデルは、学習データ、アーキテクチャ、開発に関する重要な詳細が公開されないまま、独自インターフェースの背後に囲い込まれたクローズドな形で運用されるようになっています。こうしたモデルを、バイアスや潜在的リスクを含めて科学的に研究するうえで、これらの詳細情報は極めて重要であり、私たちは研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠だと考えています。この目的のため、本テクニカルレポートでは、言語モデリングの科学を構築し研究するための最先端の真にオープンな言語モデルおよびそのフレームワークである OLMo の最初のリリースについて詳述します。モデル重みと推論コードのみを公開していた従来の多くの取り組みとは異なり、今回私たちは OLMo と、学習データ、学習コード、評価コードを含むフレームワーク全体を公開します。このリリースがオープン研究コミュニティに力を与え、その基盤を強化し、新たなイノベーションの波を引き起こすことを願っています。

    Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

論文リンク

https://arxiv.org/abs/2402.00838

さらに読む

https://x.com/omarsar0/status/1753080417530318872


MM-LLM: マルチモーダル大規模言語モデルの最近の進展 / MM-LLMs: Recent Advances in MultiModal Large Language Models

論文紹介

  • マルチモーダル大規模言語モデルに関するモデルアーキテクチャおよび学習パイプラインの設計定式化を説明する包括的なサーベイ論文です。

    A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

論文要旨(Abstract)

  • 過去1年間で、マルチモーダル大規模言語モデル(MM-LLM)は、コスト効率の高い学習戦略を通じて既製のLLMを拡張し、MM入力または出力をサポートするなど、大きな進展を遂げてきました。その結果、LLM固有の推論および意思決定能力を保持するだけでなく、多様な範囲のMMタスクを支援できるようになりました。本論文では、MM-LLMに関するさらなる研究を促進するための包括的なサーベイを提供します。具体的には、まずモデルアーキテクチャと学習パイプラインに関する一般的な設計定式化について説明します。続いて、既存の$26$のMM-LLMを簡潔に紹介し、それぞれに特徴的な定式化を示します。さらに、主要ベンチマークにおけるMM-LLMの性能をレビューし、MM-LLMの有効性を高めるための主要なトレーニングレシピを要約します。最後に、MM-LLMの有望な方向性を探ると同時に、この分野の最新動向をリアルタイムで追跡するウェブサイトを運営しています。このサーベイがMM-LLM分野の継続的な発展に貢献することを願っています。
    > In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

論文リンク

https://arxiv.org/abs/2401.13601

さらに読む

https://x.com/omarsar0/status/1751705689964089616


CRAG: 自己修正型検索拡張生成 / Corrective Retrieval Augmented Generation

論文紹介

  • RAGシステムにおける生成の堅牢性を向上させるために、修正型検索拡張生成(CRAG)を提案します。中核となるアイデアは、検索器の自己修正コンポーネントを実装し、拡張生成のために取得した文書の活用度を高めることです。検索評価器は、クエリが与えられると取得文書全体の品質を評価し、ウェブ検索と最適化された知識活用操作を用いることで、自動的な自己修正と取得文書の効率的な活用を向上させることができます。
    > Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

論文要旨(Abstract)

  • 大規模言語モデル(LLM)は、生成されたテキストの正確性を内包するパラメトリック知識だけでは保証できないため、必然的にハルシネーションを起こします。検索拡張生成(RAG)はLLMを補完できる実用的な方法ですが、取得された文書の関連性に大きく依存するため、検索が誤った場合にモデルがどう振る舞うのかという懸念があります。そこで私たちは、生成のロバスト性を改善するために Corrective Retrieval Augmented Generation(CRAG)を提案します。具体的には、軽量な検索評価器を設計し、クエリに対して取得された文書の全体的な品質を評価して、さまざまな知識検索タスクをトリガーできる信頼度を返します。静的かつ限定的なコーパスからの検索では最適でない文書しか返せないため、取得結果を補強する拡張として大規模なWeb検索を活用します。さらに、取得文書については、重要な情報に選択的に焦点を当て、無関係な情報を除外できるように、分解して再構成するアルゴリズムを設計しています。CRAGはプラグアンドプレイ方式で、さまざまなRAGベースのアプローチとシームレスに組み合わせることができます。短文生成と長文生成のタスクを含む4つのデータセットでの実験の結果、CRAGはRAGベースのアプローチの性能を大幅に向上できることが示されました。
    > Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

論文リンク

https://arxiv.org/abs/2401.15884

さらに読む

https://x.com/omarsar0/status/1752173216942944556


数学的推論のための大規模言語モデル: 進展と課題 / Large Language Models for Mathematical Reasoning: Progresses and Challenges

論文紹介

  • 数学的推論のための機械学習に関する研究開発の概要を紹介し、数学的推論のための機械学習に関する継続的な研究を促すために、進展、能力、限界、応用について論じます。
    > Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

論文要旨(Abstract)

  • 数学的推論は、人間の知能における根本的な認知能力を評価するための礎となるものです。近年、数学問題の自動解決を目指した大規模言語モデル(LLM)の開発が著しく増加しています。しかし、数学問題の種類を取り巻く状況は非常に広大で多様であり、LLM指向の技術は多様なデータセットと設定で評価されています。この多様性のため、この急成長分野における真の進展と障害を見極めることは困難です。本サーベイは、4つの重要な次元を扱うことを目指しています。i) 調査されてきたさまざまな数学問題と、それに対応するデータセットの包括的な探究、ii) 数学問題解決のために提案されてきたLLM指向技術のスペクトラムの調査、iii) 数学問題の解決においてLLMに影響を与える要因と懸念の概観、iv) この領域における継続的な課題の解明。私たちの知る限り、本サーベイは数学分野におけるLLMの地勢を広範に調査した最初期の研究の1つであり、この急速に進化する分野の現状、成果、今後の課題について、全体的な視点を提供します。
    > Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

論文リンク

https://arxiv.org/abs/2402.00157

さらに読む

https://x.com/omarsar0/status/1753424518171738194


言語モデル向け圧縮アルゴリズムの包括的調査 / A Comprehensive Survey of Compression Algorithms for Language Models

論文紹介

  • プルーニング、量子化、知識蒸留、低ランク近似、パラメータ共有、効率的なアーキテクチャ設計といった圧縮アルゴリズムを扱います。
    > Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

論文要旨(Abstract)

  • 精度を落とさずに言語モデルを圧縮するにはどうすればよいでしょうか。近年の言語モデルの目覚ましい進歩の恩恵を、炭素排出量の増加や高額な保守コストといった言語モデルの巨大なサイズによる副作用なしに享受するため、言語モデル圧縮アルゴリズムの数は急速に増加しています。多数の圧縮アルゴリズムが言語モデルの圧縮において顕著な進展を示してきた一方で、皮肉にもアルゴリズムの数があまりに多いため、新たなトレンドを把握し、その根底にある基本概念を見極めることが難しくなっています。本論文では、プルーニング、量子化、知識蒸留、低ランク近似、パラメータ共有、効率的なアーキテクチャ設計など、多様な圧縮アルゴリズムを調査し要約します。多様な圧縮アルゴリズムの全体的な動向を整理するだけでなく、代表的なアルゴリズムを選定して詳細な分析も行います。圧縮アルゴリズムの各カテゴリの価値と、大規模言語モデルの登場によって大きな影響力を持つようになった低コスト圧縮アルゴリズムに求められる望ましい特性について議論します。最後に、調査結果に基づいて今後有望な研究テーマを紹介します。
    > How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

論文リンク

https://arxiv.org/abs/2401.15347

さらに読む

https://x.com/omarsar0/status/1752746770377974072


MoE-LLaVA: 大規模ビジョン言語モデルのための専門家混合 / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

論文紹介

  • 大規模ビジョン言語モデル向けに複数のエキスパートを組み合わせてチューニングし、一定の計算コストでパラメータを大幅に削減した疎モデルを構築するこのアプローチは、マルチモーダル学習やモデルの疎性に伴う性能低下の解決にも役立ちます。
    > Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

論文要旨(Abstract)

  • 大規模視覚言語モデル(LVLM)では、モデルをスケールさせることで性能を効果的に向上させることができます。しかし、モデルのパラメータを増やすと、計算時に各トークンごとにすべてのモデルパラメータが活性化されるため、学習および推論コストが大幅に増加します。本研究では、パラメータ数は非常に多い一方で計算コストは一定に保てる疎なモデルを構築でき、マルチモーダル学習やモデルの疎性に一般的に伴う性能低下を効果的に解決できる、新しい学習戦略であるMoE-tuningをLVLM向けに提案します。さらに、MoEベースのスパースLVLMアーキテクチャであるMoE-LLaVAフレームワークを紹介します。このフレームワークでは、デプロイ時にルーターを通じて上位k個のエキスパートのみを活性化し、残りのエキスパートは非活性のまま維持します。大規模な実験により、視覚理解におけるMoE-LLaVAの優れた能力と、モデル出力におけるハルシネーションを低減できる可能性が確認されました。驚くべきことに、30億個の疎に活性化されるパラメータだけで、MoE-LLaVAはさまざまな視覚理解データセットでLLaVA-1.5-7Bに匹敵する性能を示し、物体ハルシネーションベンチマークではLLaVA-1.5-13Bを上回る性能さえ示しました。MoE-LLaVAを通じて、疎なLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発に向けた今後の研究に有益なインサイトを提供することを目指しています。コードは \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} で公開されています。
    > For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

論文リンク

https://arxiv.org/abs/2401.15947

さらに読む

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003


Webの書き換え: 計算およびデータ効率の高い言語モデリングのためのレシピ / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

論文紹介

  • 「Wikipediaのように」や「質問応答形式」など、特定のスタイルや形式でWeb文書を言い換えるよう促した既製の指示チューニング済みモデルを用いて、実データと合成データの言い換えを組み合わせてLLMを共同事前学習することで、事前学習を最大約3倍高速化し、パープレキシティを改善し、多くのタスクでゼロショット質問応答の精度を向上させます。
    > Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

論文要旨(Abstract)

  • 大規模言語モデルは、たいてい非構造的でノイズが多く、表現も洗練されていないWebの大規模スクレイピングデータを基に学習されます。現在のスケーリング則によれば、このようなデータから学習するには計算資源とデータの両方を大量に必要とし、その必要量は学習対象モデルの規模に応じて増加します。これは、事前学習に伴う莫大な計算コストと長い学習期間、さらにWeb上の高品質データの不足によって、現実的ではありません。本研究では、既存の命令チューニング済みモデルに対し、Web上の文書を「Wikipedia風」や「質問応答形式」のような特定スタイルで言い換えるよう促すことで、実データと言い換えによる合成データを用いてLLMを共同事前学習するWeb Rephrase Augmented Pre-training($\textbf{WRAP}$)を提案します。まず、もともとノイズの多いC4データセットにWRAPを適用すると、事前学習が約$\sim3x$高速化されることを示します。同一の事前学習計算予算において、The Pileの複数サブセットで平均10%以上パープレキシティを改善し、13のタスクにおけるゼロショット質問応答の正答率を2%以上向上させます。次に、言い換えスタイルがモデル性能に与える影響を調査し、学習データの構成がOOD設定におけるLLMの性能へどのように影響しうるかについての示唆を与えます。こうした改善は、言い換えられた合成データが、(i) ダウンストリーム評価のスタイルを密接に反映するスタイル多様性を取り込み、(ii) Webスクレイピングデータよりも「品質」が高いため、実データ単独より高い有用性を持つことに起因します。
    > Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

論文リンク

https://arxiv.org/abs/2401.16380

さらに読む

https://x.com/pratyushmaini/status/1752337225097076809


ノイズの力: RAGシステムのための検索の再定義 / The Power of Noise: Redefining Retrieval for RAG Systems

論文紹介

  • RAGシステムの検索コンポーネントを改善するために必要な要素に焦点を当てた研究であり、関連情報はクエリの近くに配置されるべきで、そうでない場合モデルはその情報に注意を向けるのが難しいこと、驚くべきことに関連文書が必ずしもRAGシステムの性能向上につながるわけではないこと、さらに意外なことに、無関係でノイズの多い文書であっても適切に配置すれば精度向上に役立つ可能性があることなどを確認しています。
    > a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

論文要旨(Abstract)

  • 検索拡張生成(RAG)システムは、従来の大規模言語モデル(LLM)と比べて大きく進化したシステムです。RAGシステムは、情報検索(IR)段階で取得した外部データを統合して生成能力を高めることで、事前学習済み知識と限られたコンテキストウィンドウに制約される標準的なLLMの限界を克服します。この分野の研究の多くは、主にRAGシステム内におけるLLMの生成面に焦点を当ててきました。本研究は、RAGシステムに対するIRコンポーネントの影響を徹底的かつ批判的に分析することで、このギャップを埋めます。本論文では、取得すべき文書の種類に焦点を当て、効果的なRAGのプロンプト構成のためにリトリーバーが備えるべき特性を分析します。文書とプロンプトの関連性、文書の位置、コンテキストに含まれる文書数など、さまざまな要素を評価しています。その結果、関連性の低い文書を含めると品質が低下するという当初の仮説に反して、意外にも精度が30%以上向上しうるという知見が得られました。これらの結果は、検索と言語生成モデルを統合するための特化戦略の開発の必要性を強調しており、今後のこの分野の研究の土台を築くものです。
    > Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

論文リンク

https://arxiv.org/abs/2401.14887

さらに読む

https://x.com/omarsar0/status/1751803310267314509


大規模視覚言語モデルの幻覚に関するサーベイ論文 / A Survey on Hallucination in Large Vision-Language Models

論文紹介

  • 大規模視覚言語モデル(LVLM; Large Vision-Language Model)における幻覚問題と、幻覚を軽減するための技術について論じ、LVLMの幻覚評価手法とベンチマークを紹介するとともに、LVLMの幻覚の原因とそれを軽減しうる潜在的な方法についてのヒントと有用な分析を提供します。
    > Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

論文要旨(Abstract)

  • 近年の大規模視覚言語モデル(LVLM)の発展は、その実用的な実装可能性により、AI分野でますます注目を集めています。しかし、「幻覚」、より具体的には事実に基づく視覚コンテンツとそれに対応するテキスト生成との不整合は、LVLMを活用するうえで重大な課題となっています。本包括的サーベイでは、LVLMに関連する幻覚を分析し、全体像を確立するとともに今後の軽減策を促進することを目指します。まず、LVLMにおける幻覚の概念を明確に定義し、さまざまな幻覚の症状を提示し、LVLMの幻覚に内在する固有の課題を強調することから議論を始めます。続いて、LVLM特有の幻覚を評価するために特別に設計されたベンチマークと方法論を概説します。さらに、学習データやモデル構成要素からの知見を含め、こうした幻覚の根本原因を詳しく掘り下げます。また、幻覚を軽減するための既存手法についても批判的に検討します。最後に、LVLMにおける幻覚に関する未解決の問いと今後の方向性を議論して、このサーベイを締めくくります。
    > Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

論文リンク

https://arxiv.org/abs/2402.00253

さらに読む

https://x.com/omarsar0/status/1753449211931079101


SliceGPT: 行と列を削除して大規模言語モデルを圧縮する / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

論文紹介

  • 各重み行列をより小さな密行列に置き換える学習後スパース化スキームを提案する新しいLLM圧縮手法で、ネットワークの埋め込み次元を削減しつつ、高密度モデルのゼロショット性能の大部分を維持したまま、Llama2-70BおよびPhi-2モデルのパラメータを最大20%まで削減できます。
    > A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

論文要旨(Abstract)

  • 大規模言語モデルは自然言語処理の中核となりましたが、その利用には計算資源とメモリ資源の両面で多大なコストが伴います。スパース化はこうした資源制約を緩和する解決策を提供し、近年の研究では学習済みモデルを事後的にスパース化できることが示されています。既存のスパース化手法は追加のデータ構造を必要とし、現在のハードウェアでは高速化に限界があるという課題に直面しています。本論文では、各重み行列をより小さな(高密度の)行列に置き換えることでネットワークの埋め込み次元を削減する、新たな学習後スパース化方式であるSliceGPTを紹介します。広範な実験を通じて、SliceGPTはLLAMA2-70B、OPT 66B、Phi-2モデルにおいて、モデルパラメータ(埋め込みを含む)を最大25%削減しながらも、高密度モデルのゼロショットタスク性能のそれぞれ99%、99%、90%を維持できることを示しました。スライス化されたモデルはより少ないGPUで動作し、追加のコード最適化なしでも高速に実行されます。24GBのコンシューマ向けGPUでは、LLAMA2-70Bの推論に必要な総計算量を高密度モデルの64%まで削減し、40GBのA100 GPUでは66%まで削減しました。著者らは、SliceGPTを可能にするトランスフォーマーネットワークにおける計算不変性という新たな洞察を提示しており、これが事前学習済みモデルのメモリおよび計算要求を削減する将来の道を開くことを期待しています。コードは https://github.com/microsoft/TransformerCompression で公開されています。
    > Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

論文リンク

https://arxiv.org/abs/2401.15024v1

さらに読む

https://github.com/microsoft/TransformerCompression

https://x.com/_akhaliq/status/1751796334531592496


原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e


⚠️広告⚠️: PyTorch韓国ユーザーコミュニティがまとめたこの記事は役に立ちましたか? 会員登録すると主要な記事をメールでお届けします! (デフォルトはWeeklyですが、Dailyへの変更も可能です。)

まだコメントはありません。

まだコメントはありません。