5 ポイント 投稿者 ninebow 2023-11-27 | まだコメントはありません。 | WhatsAppで共有

概要

  • DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。

  • 今週選ばれた論文は、主に「Large Language Models(LLMs)」、「Reasoning and Attention in AI System」、そして「Artificial Intelligence in Medical Domain」に関連する傾向があります。

  • 特に、「Reasoning and Attention in AI System」に関するテーマが際立っています。これは、人工知能が単なるパターン認識を超えて、人間に類似した推論および問題解決能力を備えようとする試みを反映しています。

  • 医療分野における人工知能の活用に関する研究も注目に値します。「LLMs as Collaborators for Medical Reasoning」はこの分野の重要な例であり、医療データを扱ううえでのLLM(大規模言語モデル)の応用可能性を探っています。

  • 要約すると、今週選定された論文は、複雑な推論能力と人間に類似したアテンション集中メカニズムの開発、そして医療分野での人工知能応用に焦点を当てた研究が多かったことを示しており、これは人工知能技術の発展方向を示す重要な指標と解釈できます。


(皆さんにも必要かもしれない)System 2 Attention / System 2 Attention (is something you might need too)

論文紹介

  • LLMの推論および命令追従機能を活用して、何に注意を向けるべきかを決定し、入力コンテキストを再生成して関連部分のみを含めたうえで、その再生成されたコンテキストに注意を向けてモデルの最終応答を導き、事実性を高め、QAや数学の文章題のようなタスクで標準的なアテンションベースのLLMより優れた性能を発揮します。

    Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

論文要旨

  • Transformerベースの大規模言語モデル(LLM)のソフトアテンションは、文脈と無関係な情報を潜在表現に取り込みやすく、それが次トークン生成に悪影響を及ぼします。こうした問題を是正するため、私たちは自然言語で推論し、指示に従って何に注意を向けるべきかを決定するLLMの能力を活用するSystem 2 Attention(S2A)を導入しました。S2Aは入力コンテキストを関連部分のみ含むように再生成し、その再生成されたコンテキストにアテンションを適用して最終応答を導きます。実験の結果、S2Aは意見や無関係な情報を含む3つのタスク、すなわちQA、数学の文章題、長文生成において、事実性と客観性を高め、おべっか的応答を減らすなど、標準的なアテンションベースのLLMより優れた性能を示しました。

    Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

論文リンク

https://arxiv.org/abs/2311.11829

さらに読む

https://x.com/jaseweston/status/1726784511357157618


長文コンテキストの大規模言語モデルにおけるTransformerアーキテクチャの発展:包括的サーベイ / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

論文紹介

  • 事前学習から推論に至るまでのすべての段階で、長文コンテキスト能力を最適化するTransformerアーキテクチャモジュールを強化するための方法論の概要です。

    An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

論文要旨

  • ChatGPTが火を付けたTransformerベースの大規模言語モデル(LLM)は、汎用人工知能(AGI)へ向かう革新的な道を切り開き、知識基盤、ヒューマンインターフェース、動的エージェントなど多様な領域に応用されています。しかし、リソース制約を受ける現在の多くのLLMは主に短いテキストを対象に事前学習されており、実環境でよく見られる長いコンテキストのプロンプトに対しては効率が低いという限界があります。本論文では、事前学習から推論に至るまでのすべての段階で長文脈能力を最適化するため、TransformerベースのLLMにおけるモデルアーキテクチャの発展に焦点を当てた包括的なサーベイを提示します。まず、現在のTransformerベースモデルで長いコンテキストの入出力を扱う際に生じる問題点を特定し、分析します。次に、これらの問題を解決するため、アーキテクチャにおけるTransformerのアップグレード環境を俯瞰できる包括的な分類法を主に提示します。その後、データセット、メトリクス、ベースラインモデルなど、長文脈LLM向けに広く用いられる評価上の必須要素の調査とともに、さまざまな段階でLLMの効率性と有効性を高めるライブラリ、システム、コンパイラといった優れた最適化ツールキットを紹介します。最後に、この分野の主要課題と今後の研究に向けた潜在的な方向性について議論します。さらに、関連文献をキュレーションしてリアルタイムで更新するリポジトリ(https://github.com/Strivin0311/…

    With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

論文リンク

https://arxiv.org/abs/2311.12351

さらに読む

https://x.com/omarsar0/status/1727358484360945750


PaSS: 並列投機的サンプリング / PaSS: Parallel Speculative Sampling

論文紹介

  • 投機的サンプリングと並列デコーディングの変種に基づいてLLMの推論時間を短縮するアプローチで、$O(d_{emb})$ 分の追加パラメータのみを学習することで、大幅な高速化(最大30%)を達成します。

    Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.

論文要旨

  • 言語モデルの規模を数百億個のパラメータへと拡張すると、幅広いタスクで印象的な性能を発揮できます。生成時には、これらのモデルは自己回帰的に使用されるため、生成される各トークンごとにフォワードパスが必要になり、その結果、メモリからパラメータ一式全体を読み出さなければなりません。このメモリアクセスは生成時の主要なボトルネックとなり、モデルサイズが大きくなるほどそのボトルネックはさらに深刻になります。さらに、複数トークンに対するフォワードパスを並列実行しても、1トークンに対するフォワードパスとほぼ同じ時間しかかからないことがよくあります。この2つの観察から、2つ目の小型モデルを使って数個のトークンの下書きを作成し、その後に大型モデルの単一フォワードパスでそれらを検証または棄却する speculative sampling が開発されました。残念ながら、この方法には同じトークナイザを共有する2つのモデルが必要であり、そのため採用が制限されます。これに対する代替として、私たちは計算コストの増加も第2のモデルも必要とせず、単一モデルから複数トークンの下書きを行う方法として並列デコーディングを提案します。このアプローチでは、同時に生成される単語を示す追加の入力トークンだけが必要です。最大 $30%$ の高速化という有望な性能を示しつつ、必要な追加パラメータはわずか $O(d_{emb})$ です。

    Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

論文リンク

https://arxiv.org/abs/2311.13581

さらに読む

https://x.com/omarsar0/status/1728066181796418009


Mirasol3B: 時間整合および文脈モダリティのためのマルチモーダル自己回帰モデル / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

論文紹介

  • 音声、動画、テキストをまたぐ学習のためのマルチモーダルモデルであり、マルチモーダルモデリングを個別の集中的な自己回帰モデルへと分離し、入力はモダリティごとに処理されます。このアプローチは他のモデルと比べてより長い動画を扱うことができ、video QA、long video QA、audio-video-text ベンチマークで最先端手法を上回る性能を発揮します。

    A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

論文要旨

  • マルチモーダル学習の主要な課題の1つは、異種モダリティ(例: 動画、音声、テキスト)を組み合わせる必要があることです。たとえば、動画と音声はテキストよりはるかに高い頻度で取得され、時間的にもおおむね一致しています。これらは、タイトルや説明のようにグローバルなコンテキストとして与えられるテキストとは同期していないことが少なくありません。さらに、動画および音声入力ははるかに大きな容量を持ち、動画の長さが長くなるにつれて増大するため、当然ながらこれらのモダリティ専用により多くの計算資源が必要になり、長距離依存関係のモデリングも難しくなります。 ここでは、マルチモーダルモデリングを分離し、各モダリティの特性に応じて入力を処理する個別の特化型自己回帰モデルへと分割します。時間同期されたモダリティ(音声と動画)のための自己回帰コンポーネントと、時間的に必ずしも整列していないが依然として逐次的なコンテキストモダリティのための自己回帰コンポーネントから構成される、Mirasol3B というマルチモーダルモデルを提案します。動画・音声入力の長いシーケンスに対応するため、動画と音声のシーケンスを連続するスニペットにさらに分割し、それらの表現を自己回帰的に処理することを提案します。そのために、時間フレーム内で音声・動画情報を共同でモデリングする Combiner メカニズムを提案します。Combiner は、生の時空間信号から音声および動画の特徴を抽出する方法を学習し、その後これらの特徴を融合して、簡潔でありながら表現力の高いスニペット単位の表現を生成する方法を学習します。 このアプローチは、広く確立されたマルチモーダルベンチマークにおいて、はるかに大規模なモデルを上回る最先端の性能を達成します。また、コンパクトな表現の学習、音声・動画特徴表現のシーケンス長の制御、時間依存性のモデリングを通じて、メディア入力の高い計算需要に効果的に対応します。

    One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

論文リンク

https://arxiv.org/abs/2311.05698

さらに読む

https://x.com/GoogleAI/status/1724553024088191211


Orca 2: 小規模言語モデルに推論方法を教える / Orca 2: Teaching Small Language Models How to Reason

論文紹介

  • より小規模な言語モデルに推論を教えるアプローチを提案します。具体的には、段階的処理、recall-then-generate、recall-reason-generate、extract-generate、direct-answer 手法のような推論技術を使用すると考えられており、ゼロショット設定で高度な推論能力を試す複雑なタスクで評価した場合、同程度のサイズのモデルを上回り、5〜10倍大きいモデルと同等またはそれ以上の性能水準を達成することが示されています。

    Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

論文要旨

  • Orca 1は、説明トレースのような豊富なシグナルから学習し、BigBench HardやAGIEvalのようなベンチマークで従来のインストラクションチューニングモデルを上回る性能を発揮します。Orca 2では、改善された学習シグナルが小規模LMの推論能力をどのように向上させられるかを引き続き研究しています。小規模LMの学習研究では、より高性能なモデルの出力を再現するために模倣学習に依存することが多くありました。しかし、模倣学習を過度に重視すると、小規模モデルの潜在能力を制限する可能性があると主張しています。私たちは、小規模LMに対して、大規模モデルが用いるものとは異なる場合も含め、さまざまなタスクに応じて異なる解法戦略を使うよう教えることを目指しています。たとえば、大規模モデルは複雑な課題に直接的な答えを提示できる一方で、小規模モデルにはその能力がない場合があります。Orca 2では、モデルにさまざまな推論手法(段階的推論、想起してから生成、想起・推論・生成、直接回答など)を学習させます。さらに重要なのは、各タスクに対して最も効果的な解法戦略を判断する方法をモデルが学べるよう支援することです。15種類の多様なベンチマーク(約100のタスクと3万6,000件を超える固有プロンプトに相当)から成る包括的なセットを用いてOrca 2を評価します。Orca 2は、ゼロショット環境で高度な推論能力を試す複雑な課題で評価した結果、同程度のサイズのモデルを大きく上回り、5〜10倍大きいモデルと同等かそれ以上の性能水準を達成しました。より小さなLMの開発、評価、アラインメントに関する研究を支援するため、Orca 2の重みをaka.ms/orca-lmで公開しています

    Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

論文リンク

https://arxiv.org/abs/2311.11045

さらに読む

https://x.com/omarsar0/status/1726990087399915995


GPQA: 大学院レベルのGoogle耐性Q&Aベンチマーク / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

論文紹介

  • 生物学、物理学、化学分野のドメイン専門家が作成した448問の選択式問題で構成される、大学院レベルのGoogle耐性QAベンチマークを提案します。最も強力なGPT-4ベースのベースラインは39%の正答率を達成しており、このベンチマークは、人間の能力を超える現代のAIシステムから信頼できる真実性の高い情報を得るのに役立つ、スケーラブルな監督実験を提供します。

    Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

論文要旨

  • 生物学、物理学、化学分野の専門家が作成した448問の多肢選択式問題からなる高難度データセットであるGPQAを提示します。これらの分野で博士号を取得済み、または取得中の専門家の正答率は65%(専門家が後から振り返って明らかなミスを除くと74%)に達する一方、高度に熟練した非専門家の検証者は、平均30分以上ウェブへ無制限にアクセスできたにもかかわらず、正答率は34%にとどまりました(つまり、この問題は「Google-proof」であることが確認されています)。最も強力なGPT-4ベースのベースラインでも39%の精度にとどまるなど、最先端のAIシステムにとっても難しい問題です。たとえば新しい科学知識を生み出す際のように、非常に難しい質問に答えるために将来のAIシステムを利用するのであれば、人間がその出力を監督できるスケーラブルな監督手法を開発する必要がありますが、監督者自身が熟練し知識豊富であってもそれは難しい可能性があります。熟練した非専門家とフロンティアAIシステムの双方にとってのGPQAの難しさは、現実的なスケーラブル監督実験を可能にし、人間の能力を上回るAIシステムから人間の専門家が信頼して真実の情報を得る方法を考案する助けになることが期待されます。

    We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

論文リンク

https://arxiv.org/abs/2311.12022

さらに読む

https://x.com/idavidrein/status/1727033002234909060


言語インテリジェンスの点火: 連鎖思考(CoT)から言語エージェントまでのヒッチハイカーガイド / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

論文紹介

  • CoT(Chain-of-Thought)推論、CoT(Chain-of-Thought)技法を支える基礎的メカニズム、および言語エージェントフレームワークへの応用をまとめた要約です。

    Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

論文要旨

  • 大規模言語モデル(LLM)は、多様で複雑な推論タスクにおける卓越した経験的性能によって実証されているように、言語知能の分野を飛躍的に向上させました。さらに、理論的証明によって新たな推論能力が明らかになり、言語的文脈における高度な認知能力を強力に示せるようになりました。複雑な推論タスクを処理するうえで顕著な効果を発揮するうえで重要な役割を果たしているのが、LLMが用いる興味深い思考の連鎖(CoT)推論手法であり、答えを導く過程で中間ステップを明示的に構成することを求めます。CoT推論アプローチは、推論性能を高めるだけでなく、解釈可能性、制御可能性、柔軟性の向上にも優れていることが示されています。こうした利点を踏まえ、近年の研究ではCoT推論手法を拡張し、さまざまな環境で言語指示に的確に従ってタスクを実行する自律言語エージェントの開発を促進してきました。このサーベイ論文は、(i) CoT技術の基礎的メカニズムと、その有効性を支える背景および妥当性の解明、(ii) CoTにおけるパラダイムシフト、(iii) CoTアプローチによって強化された言語エージェントの急速な発展、という重要な研究軸を貫く包括的な議論を展開しています。今後の研究方向としては、汎化、効率性、カスタマイズ、スケーリング、安全性に関する探究が挙げられます。この論文は、CoT推論と言語エージェントについて包括的な知識を得たい初心者から、基礎的メカニズムに関心を持ち、これらのテーマの最先端の議論に参加する熟練研究者まで、幅広い読者を対象としています。関連論文のリポジトリは https://github.com/Zoeyyao27/CoT-Igniting-Agent で確認できます。

    Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

論文リンク

https://arxiv.org/abs/2311.11797

さらに読む

https://x.com/omarsar0/status/1726803725220487277


GAIA: 汎用AIアシスタントのためのベンチマーク / GAIA: a benchmark for General AI Assistants

論文紹介

  • 推論、マルチモーダル処理、Webブラウジング、一般的なツール使用の熟達度といった一連の基本能力を必要とする現実世界の質問で構成された汎用AIアシスタント向けベンチマークでは、人間の回答者は92%、プラグインを搭載したGPT-4は15%のスコアを獲得しました。

    A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

論文要旨

  • 解決されればAI研究のマイルストーンとなる汎用AIアシスタントのベンチマークであるGAIAを紹介します。GAIAは、推論、マルチモーダル処理、Webブラウジング、そして一般的なツール利用の熟達度といった一連の基本能力を必要とする現実世界の質問を提示します。GAIAの質問は、人間にとっては概念的に単純である一方で、ほとんどの高度なAIにとっては難題です。人間の回答者は92%、プラグインを備えたGPT-4は15%の正答率を示しました。この顕著な性能差は、法律や化学など専門的な技能を要するタスクで人間を上回るという最近の傾向とは対照的です。GAIAの哲学は、人間にとってますます難しいタスクを対象にする現在のAIベンチマークの流れとは一線を画しています。私たちは、人工汎用知能(AGI)の到来は、この種の問題に対して平均的な人間と同様の頑健性を示せるシステムの能力にかかっていると考えています。GAIAの方法論を用いて、466の質問とその回答を設計しました。質問は公開されており、そのうち300問の回答は https://huggingface.co/gaia-benchmark で確認できるリーダーボードのために非公開とされています。

    We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

論文リンク

https://arxiv.org/abs/2311.12983

さらに読む

https://x.com/ThomasScialom/status/1727683993045201339


MedAgents: ゼロショット医療推論のための協働者としての大規模言語モデル / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

論文紹介

  • ロールプレイング型のLLMベースエージェントを活用し、LLMの熟達度と推論能力を向上させる医療分野向けの協調マルチラウンドフレームワークを提案します。

    Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

論文要旨

  • 大規模言語モデル(LLM)は、さまざまな一般領域で目覚ましい進歩を遂げているにもかかわらず、医学およびヘルスケア分野では大きな障壁に直面しています。この分野では、ドメイン固有の用語や専門知識に基づく推論といった固有の課題があります。こうした根深い問題に対処するため、著者らは医療分野向けの新しい学際的協調(MC)フレームワークを提案します。このフレームワークは、ロールプレイングするLLMベースのエージェントが協調的なマルチラウンド討論に参加することで、LLMの熟達度と推論能力を高めます。学習不要で解釈可能なこのフレームワークは、ドメイン専門家の招集、個別分析の提示、それらの分析のレポートへの要約、合意に達するまでの議論の反復、そして最終的な意思決定という5つの重要なステップを含みます。特にゼロショットシナリオに焦点を当て、9つのデータセット(MedQA、MedMCQA、PubMedQA、およびMMLUの6つのサブタスク)で行った結果から、提案するMCフレームワークが、LLM内の医療専門知識を掘り起こして活用し、その推論能力を拡張するうえで優れていることが示されました。これらの結果に基づき、手法内の一般的なエラーを特定して分類するための人的評価と、全体性能に対するさまざまな要因の影響を理解するためのアブレーション研究も実施しました。コードの詳細は \url{https://github.com/gersteinlab/MedAgents} で確認できます。

    Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

論文リンク

https://arxiv.org/abs/2311.10537

さらに読む

https://x.com/omarsar0/status/1726627951582511135


変化する気候の中のラクダ: Tulu 2によるLM適応力の向上 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

論文紹介

  • 事前学習済み言語モデルをダウンストリームタスクおよびユーザー選好に合わせて調整することへの理解とベストプラクティスを向上させるため、改良されたTuluモデル群を提供しており、Tulu 2群はオープンモデルの中で最先端性能を達成し、複数のベンチマークで GPT-3.5-Turbo-0301 の性能に匹敵するか、それを上回ります。

    Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

論文要約

  • Tülu の公開以降 [Wang et al., 2023b]、インストラクションチューニングのためのオープンリソースは、より優れたベースモデルから新たなファインチューニング手法まで、急速に発展してきました。著者らはこれらの進展の多くを検証し、Tülu に取り入れることで、事前学習済み言語モデルをダウンストリームタスクおよびユーザー選好に適応させるための理解とベストプラクティスを前進させる改良版Tüluモデル群である Tülu 2 を開発しました。具体的には、(1) 高品質な命令データセットを改良して集めた Tülu-V2-mix、(2) V2 mix でファインチューニングした LLAMA-2 ベースの Tülu 2 モデル、(3) 直接選好最適化(DPO)で学習した Tülu 2+DPO モデル群(現時点で最大規模のDPO学習モデルである Tülu 2+DPO 70B を含む)、(4) V2 mix でファインチューニングされ、CODE LLAMA およびそのインストラクションチューニング版である CODE LLAMA-Instruct を上回る性能を示す CODE LLAMA ベースの CODE Tülu 2、を公開しています。多角的な評価の結果、Tülu 2群はオープンモデルの中で最先端性能を達成し、複数のベンチマークで GPT-3.5-turbo-0301 の性能に匹敵するか、それを上回ることが示されました。今後の大規模言語モデル適応に関するオープンな取り組みを促進するため、すべてのチェックポイント、データ、学習コード、評価コードを公開しています。

    Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

論文リンク

https://arxiv.org/abs/2311.10702

さらに読む

https://x.com/natolambert/status/1727350301131518454


原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05

まだコメントはありません。

まだコメントはありません。