8 ポイント 投稿者 ninebow 2023-09-18 | まだコメントはありません。 | WhatsAppで共有

概要

  • DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。
  • 今週選ばれた論文は、その大半がLLM(Large Language Model)というテーマに集中しています。特に、LLMの扱い方が多様である点が特徴的です。これらの論文は、言語モデルの学習方法、エージェントベースのLLMの発展可能性、LLMの高度化と自己学習能力、LLMに関する一連の研究など、さまざまな観点からLLMを分析しています。
  • このような傾向は、人工知能と機械学習の分野で言語モデルの学習方法が重要視されていること、そしてその中でもLLMが注目を集めていることを示しています。また、LLMの扱い方の多様さは、この技術がどれほど幅広く応用できるかを示唆しており、その潜在力を示しています。

教科書だけで十分 II: PHI-1.5 技術報告書 / Textbooks Are All You Need II: phi-1.5 technical report

論文紹介

  • 300億トークンで学習された新しい13億パラメータモデルであり、データセットは「教科書品質」の合成データで構成され、推論タスクにおいて他のより大規模なモデルに匹敵する、あるいはそれを上回る性能を示すphi-1.5は、データ品質が従来考えられていた以上に重要な役割を果たすことを示唆しています。 #llm #llm-alignment

    A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.

論文要旨

  • 一貫した英語を生成できる1,000万パラメータモデルである $TinyStories$ と、最先端に近いPythonコーディング性能を備えた13億パラメータモデルである $phi-1$ の後続研究から始まった、小規模Transformerベース言語モデルの性能に関する調査を継続しています。後者の研究では、従来のWebデータと比べて学習プロセスを改善する方法として、既存の大規模言語モデル(LLM)を用いて「教科書品質」のデータを生成することが提案されました。今回は自然言語における常識推論に焦点を当て、「教科書だけで十分」というアプローチに従い、自然言語タスクでは5倍大きいモデルに匹敵する性能を示し、小学校レベルの数学や基本的なコーディングのような、より複雑な推論タスクでは大半の非フロンティアLLMを上回る、新しい13億パラメータモデル \textbf{phi-1.5} を作成しました。より一般的には、$phi-1.5$ は、「段階的に考える」能力や初歩的なインコンテキスト学習の実行能力といった良い面と、幻覚や有害・偏った生成の可能性といった悪い面の両方において、はるかに大規模なLLMの多くの特性を示します。しかし心強いことに、Webデータが存在しないおかげで、これらの側面には改善が見られています。私たちは、これらの喫緊のトピックに関するさらなる研究を促進するため、$phi-1.5$ をオープンソース化しました。

    We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.

論文リンク

https://arxiv.org/abs/2309.05463

さらに読む

https://x.com/omarsar0/status/1701590130270601422

大規模言語モデルベースエージェントの台頭と可能性: サーベイ論文 / The Rise and Potential of Large Language Model Based Agents: A Survey

論文紹介

  • LLMベースのエージェントに関する包括的な概要であり、これらのエージェントをどのように構築するかから、どのように有効活用するかまでを扱っています。 #survey-paper

    A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.

論文要旨

  • 人類は長い間、人間と同等あるいはそれを超える人工知能(AI)を追求してきており、AIエージェントはこの目標を達成するための有望な手段と見なされてきました。AIエージェントとは、環境を感知し、意思決定を行い、行動を起こす人工的な存在です。20世紀半ば以降、知能的なAIエージェントを開発するために多くの努力が払われてきました。しかし、それらの取り組みは主に、特定の機能や特定のタスクにおける性能を向上させるためのアルゴリズムや学習戦略の発展に集中していました。実際にコミュニティに不足しているのは、多様なシナリオに適応できるAIエージェントを設計する際の出発点となりうる、十分に汎用的で強力なモデルです。大規模言語モデル(LLM)は、その汎用性と卓越した能力ゆえに汎用人工知能(AGI)の潜在的な火種と見なされており、汎用AIエージェントの構築に希望を与えています。多くの研究では、AIエージェント構築の基盤としてLLMを活用し、大きな進展を遂げてきました。まず、エージェントという概念を、その哲学的起源からAIにおける発展までたどり、なぜLLMがAIエージェントの土台として適しているのかを説明します。これを踏まえて、脳・知覚・行動という3つの主要構成要素からなるLLMベースのエージェントの概念的フレームワークを提示し、このフレームワークはさまざまなアプリケーション向けに調整できます。続いて、単一エージェントのシナリオ、マルチエージェントのシナリオ、人間とエージェントの協調という3つの観点から、LLMベースのエージェントの幅広い応用例を検討します。その後、エージェント社会を詳しく掘り下げ、LLMベースのエージェントの行動と性格、エージェントが社会を形成したときに現れる社会現象、そして人間社会にもたらす示唆を考察します。最後に、この分野におけるさまざまな主要トピックと未解決の課題について議論します。

    For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.

論文リンク

https://arxiv.org/abs/2309.07864

さらに読む

https://x.com/omarsar0/status/1702736490067890239

EvoDiff

論文紹介

  • 配列空間における制御可能なタンパク質生成のために、進化スケールのデータと拡散モデルを組み合わせることで、構造ベースのモデルでは到達できないタンパク質を生成できます。 #diffusion

    Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.

論文リンク

https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1

さらに読む

https://x.com/KevinKaichuang/status/1701953715312136302

RAIN: 言語モデルはファインチューニングなしでも自ら整列できる / RAIN: Your Language Models Can Align Themselves without Finetuning

論文紹介

  • 自己評価および巻き戻しメカニズムを統合することで、アラインされていないllmsでも自己ブースティングを通じて、人間の選好に一致する応答を直接生成できることを明らかにしています。

    Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.

論文要旨

  • 大規模言語モデル(LLM)は、しばしば人間の選好と不一致を示します。これまでの研究では、人間の選好データを収集したうえで、強化学習やインストラクションチューニング(いわゆるファインチューニング段階)を用いて事前学習済みモデルを調整してきました。これに対して、追加データなしで固定されたLLMをアラインメントするほうが、より魅力的です。本研究はこの後者の可能性を探ります。自己評価と巻き戻しメカニズムを統合することで、アラインメントされていないLLMでも、自己ブースティングによって人間の選好に合致した応答を直接生成できることを明らかにしました。Unityは、新しい推論手法である Rewindable Auto-regressive INference(RAIN)を導入し、事前学習済みLLMが自身の生成結果を評価し、その評価結果を用いてAIの安全性のために後方への巻き戻しと前方生成を導けるようにします。特にRAINは、モデルアラインメントのための追加データを必要とせず、学習・勾配計算・パラメータ更新も不要です。また自己評価段階では、固定テンプレートのプロンプトを通じて、人間のどの選好に合わせるべきかという指針がモデルに与えられるため、初期プロンプトを修正する必要もありません。GPT-4および人間による評価実験の結果は、RAINの有効性を示しています。HHデータセットでは、RAINは通常の推論と比べて、LLaMA 30Bの無害性率を82%から97%へ改善しつつ、有用性率は維持しました。Vicuna 33Bに対する主要な敵対的攻撃である llm-attacks の下では、RAINは攻撃成功率を94%から19%へ低下させ、新たな防御ベースラインを打ち立てています。

    Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.

論文リンク

https://arxiv.org/abs/2309.07124

さらに読む

https://x.com/omarsar0/status/1702131444041011395

ロボット・パルクール学習 / Robot Parkour Learning

論文紹介

  • エゴセントリック深度カメラを使用して4足歩行ロボットへ転送される、エンドツーエンドの視覚ベース・パルクール方策を学習するシステムを提示し、低コストなロボットが実環境でパルクール技能を自動的に選択・実行できることを示します。

    Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.

論文要旨

  • パルクールは、ロボットが複雑な環境で多様な障害物を素早く克服しなければならない、脚移動における大きな挑戦です。既存の手法では、動物の参照データや複雑な報酬を用いることで、多様ではあるものの視覚を使わない移動スキル、あるいは視覚ベースではあるものの特化型のスキルを生成できます。しかし、自律的なパルクールを実現するには、ロボットがさまざまなシナリオを認識して反応できるよう、視覚ベースでありながら多様で汎化可能なスキルを学習する必要があります。本研究では、参照動作データを使わず、単純な報酬のみを用いて、多様なパルクールスキルに対応する単一のエンドツーエンド視覚ベース・パルクール方策を学習するシステムを提案します。高い障害物を登る、大きな隙間を跳び越える、低い障壁の下をくぐる、狭い隙間を通り抜ける、走行するといったパルクールスキルを生成するため、direct collocation に着想を得た強化学習手法を開発します。これらのスキルを単一の視覚ベース・パルクール方策へと蒸留し、自己中心的な深度カメラを用いて四足歩行ロボットへ転送します。このシステムにより、2種類の異なる低コストロボットが、自律的に適切なパルクールスキルを選択・実行し、困難な実世界環境を通過できることを示します。

    Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.

論文リンク

https://arxiv.org/abs/2309.05665

さらに読む

https://x.com/zipengfu/status/1701316023612219445

大規模基盤モデルにおけるハルシネーションのサーベイ / A Survey of Hallucination in Large Foundation Models

論文紹介

  • さまざまな種類のハルシネーション現象を分類し、ハルシネーションを評価するための評価基準と軽減戦略を提供します。 #survey-paper #foundation-model

    Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.

論文要旨

  • 基盤モデル(FM)におけるハルシネーションとは、事実と異なる、あるいは捏造情報を含むコンテンツを生成することを指します。このサーベイ論文は、「大規模」基盤モデル(LFM)に特に焦点を当て、ハルシネーション問題を特定・解明・対処しようとする最近の取り組みについて広範な概要を提供します。本論文では、LFMに特有のさまざまな種類のハルシネーション現象を分類し、ハルシネーションの程度を評価するための評価基準を確立します。また、LFMにおけるハルシネーションを軽減する既存戦略を検討し、この分野における今後の研究方向について議論します。要するに本論文は、LFMのハルシネーションに関連する課題と解決策を包括的に検討したものです。

    Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.

論文リンク

https://arxiv.org/abs/2309.05922

さらに読む

https://x.com/omarsar0/status/1701970034711539839

Agents: 自律言語エージェントのためのオープンソースフレームワーク / Agents: An Open-source Framework for Autonomous Language Agents

論文紹介

  • 計画、メモリ、ツール使用、マルチエージェント間コミュニケーションなどの機能を備えた、自律言語エージェントを構築するためのオープンソースライブラリです。

    An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.

論文要旨

  • 近年の大規模言語モデル(LLM)の進展により、研究者や開発者は自然言語インターフェースを用いてさまざまなタスクを自動的に解決し、環境、人間、他のエージェントと相互作用できる自律型言語エージェントを構築できるようになりました。私たちは言語エージェントを人工知能に向けた有望な方向性だと考え、こうした進展をより幅広い非専門家に開放することを目的として、オープンソースライブラリのAgentsを公開しました。Agentsは、計画、メモリ、ツール使用、マルチエージェント通信、きめ細かな記号的制御などの重要な機能をサポートするよう丁寧に設計されています。Agentsは、非専門家でも多くのコーディングなしに最先端の自律型言語エージェントを構築、カスタマイズ、テスト、調整、デプロイできるため、ユーザーフレンドリーです。また、このライブラリはモジュール化された設計により、研究者が容易に拡張できるため、研究にも適しています。Agentsは https://github.com/aiwaves-cn/agents で利用できます。

    Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.

論文リンク

https://arxiv.org/abs/2309.07870

さらに読む

https://x.com/arankomatsuzaki/status/1702497897395396960

Radiology-Llama2: クラス最高水準の放射線医学向け大規模言語モデル / Radiology-Llama2: Best-in-Class Large Language Model for Radiology

論文紹介

  • 放射線医学向けに調整されたLlama 2ベースのLLMを提供し、大規模な放射線レポートデータセットに基づいて調整されており、放射線学的所見から一貫性があり臨床的に有用なインプレッションを生成します。

    Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.

論文要旨

  • 本論文では、instruction tuningと呼ばれるプロセスを通じて、放射線医学に特化した大規模言語モデルRadiology-Llama2を紹介します。Radiology-Llama2はLlama2アーキテクチャに基づいており、大規模な放射線レポートデータセットで追加学習することで、放射線学的所見から一貫性があり臨床的に有用なインプレッションを生成します。MIMIC-CXRおよびOpenIデータセットにおけるROUGE指標を用いた定量評価の結果、Radiology-Llama2は他の生成言語モデルと比べて最先端の性能を達成し、Rouge-1スコアはMIMIC-CXRで0.4834、OpenIで0.4185を記録しました。放射線医学の専門家による追加評価では、このモデルの理解しやすさ、一貫性、関連性、簡潔さ、臨床的有用性における強みが強調されました。この研究は、放射線医学のような専門領域向けに設計・調整されたローカライズド言語モデルの可能性を示しています。こうしたモデルを適切に評価し導入すれば、定型業務を自動化し、人間の専門性を高めることで、放射線医学のような分野を変革できる可能性があります。

    This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.

論文リンク

https://arxiv.org/abs/2309.06419

さらに読む

https://x.com/omarsar0/status/1701774444052557965

ソフトウェア開発のためのコミュニケーションエージェント / Communicative Agents for Software Development

論文紹介

  • ウォーターフォールモデルを反映した仮想チャットベースのソフトウェア開発会社chatdevを紹介し、1ドル未満のコストで7分以内にソフトウェア開発プロセス全体を完了するなど、ソフトウェア生成におけるエージェントの有効性を示します。

    Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.

論文要旨

  • ソフトウェアエンジニアリングは、複雑な意思決定プロセスを特徴とする分野であり、しばしば繊細な直感や協議に依存します。近年のディープラーニングの進展は、ソフトウェア開発のさまざまな段階で実装される高度な設計を通じて、ソフトウェアエンジニアリングの実践に革命をもたらし始めています。本論文では、ソフトウェア開発プロセス全体にわたって大規模言語モデル(LLM)を活用し、自然言語によるコミュニケーションを通じて主要プロセスを簡素化・統合することで、各段階ごとの専用モデルを不要にする革新的なパラダイムを提示します。このパラダイムの中核にあるのが ChatDev であり、これは従来のウォーターフォールモデルを反映した仮想的なチャット駆動型ソフトウェア開発企業で、開発プロセスを設計、コーディング、テスト、文書化という4つの時系列段階に綿密に分割しています。各段階では、プログラマー、コードレビュアー、テストエンジニアといったエージェントのチームが参加し、協調的な対話を促進してシームレスなワークフローを実現します。チャットチェーンは各段階を原子的なサブタスクへと分解するファシリテーターとして機能します。これにより、文脈を認識したコミュニケーションを通じて解決策を提案・検証し、特定のサブタスクを効率的に解決するという二重の役割を果たせます。ChatDev の実証分析では、ソフトウェア生成における顕著な効率性が示されており、1ドル未満のコストでソフトウェア開発プロセス全体を7分以内に完了できます。また、潜在的な脆弱性を特定して軽減するだけでなく、潜在的なハルシネーションも修正しつつ、優れた効率性とコスト効率を維持します。ChatDev の可能性は、ソフトウェア開発領域への LLM 統合に新たな可能性を切り開きます。

    Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.

論文リンク

https://arxiv.org/abs/2307.07924v3

さらに読む

https://x.com/KevinAFischer/status/1702355125418045860

MAmmoTH: ハイブリッド命令チューニングによる数学ジェネラリストモデルの構築 / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning

論文紹介

  • 一般的な数学問題解決向けに特化した一連のオープンソース機械学習モデルで、厳選された命令チューニング用データセットで学習され、複数の数学的推論データセットにおいて既存のオープンソースモデルを上回る性能を示します。 #mathglm

    A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.

論文要旨

  • 一般的な数学問題の解決に特化して調整されたオープンソース大規模言語モデル(LLM)シリーズ MAmmoTH を紹介します。MAmmoTH モデルは、精密にキュレーションされた命令チューニング用データセットである MathInstruct を基に学習されています。MathInstruct は 13 の数学データセットから中間推論付きで構成されており、このうち 6 つには著者らが新たにキュレーションした推論が含まれています。このソリューションは、Chain-of-Thought(CoT)と Program-of-Thought(PoT)の根拠を独自にハイブリッド化して提供し、数学の多様な分野を幅広くカバーします。CoT と PoT の組み合わせは、ツール利用の可能性を引き出すだけでなく、さまざまな数学問題に対して異なる思考プロセスを可能にします。その結果、MAmmoTH シリーズはあらゆる規模において 9 つの数学的推論データセットで既存のオープンソースモデルを大幅に上回り、平均で 13% から 29% の精度向上を達成しました。特に、競技レベルのデータセットである MATH では、MAmmoTH-7B モデルが 35% に到達し、最高のオープンソース 7B モデル(WizardMath)を 25% 上回りました。また、MAmmoTH-34B モデルは MATH で 46% の精度を達成し、GPT-4 の CoT 結果さえ上回りました。この研究は、優れた汎用数学モデルを開発するうえで、多様な問題範囲のカバーとハイブリッド推論の活用が重要であることを強調しています。

    We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.

論文リンク

https://arxiv.org/abs/2309.05653

さらに読む

https://x.com/xiangyue96/status/1701710215442309323

原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461

まだコメントはありません。

まだコメントはありません。