[2024/04/22 ~ 04/28] 今週の主要なML論文 (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。
-
今週投稿された論文を見てみると、その大半は次世代言語モデル(Large Language Models, LLMs)とその応用分野に焦点を当てているようです。具体的には、"Make Your LLM Fully Utilize the Context"、"Graph Machine Learning in the Era of LLMs"、"Self-Evolution of LLMs"、そして"Naturalized Execution Tuning (NExT)"などは、LLMsの発展および最適化手法、そして新たな応用分野に関する研究を扱っています。これは、近年の人工知能分野においてLLMsの重要性と応用可能性が高まっていることを反映しています。
-
LLMsの発展が重要である理由は、これらのモデルが自然言語処理(Natural Language Processing, NLP)だけでなく、さまざまなマルチモーダルなタスクを実行する際にも優れた性能を示すためです。たとえば、"Make Your LLM Fully Utilize the Context"という論文は、LLMsが提供するコンテキストを最大限に活用して、より正確な情報を抽出し解釈する方法を探究しています。また、"Graph Machine Learning in the Era of LLMs"は、グラフベースのデータ学習がどのようにLLMsによって向上し得るかに関する研究であり、これは複雑な関係やパターンを理解するうえで大いに役立ちます。
-
このような傾向は、人工知能分野におけるLLMsの役割が、単なる言語理解や生成にとどまらず、より広範な問題解決や応用分野へと拡張していることを示唆しています。これは、研究者たちが人工知能のさまざまな側面を探求し、とりわけ人間の言語をより深く理解し活用できるモデルを開発しようとする取り組みの一環と見ることができます。また、このような研究動向は、今後もさまざまな分野でLLMsの活用が増加していくという見通しを裏づけています。
[IMG] [2024/04/22 ~ 04/28] 今週の主要なML論文 (Top ML Papers of the Week)|1028x618
Phi-3技術レポート: スマートフォン上でローカルに高い性能を発揮する言語モデル / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
論文紹介
3.3兆トークンで学習された新しい3.8Bパラメータの言語モデルであるphi-3-miniは、Mixtral 8x7BおよびGPT-3.5に匹敵すると報告されており、デフォルトのコンテキスト長は4Kですが、128Kに拡張されたバージョン(phi-mini-128K)も含まれています。3.8Bモデルの学習には、高度にフィルタリングされたWebデータと合成データを組み合わせており、4.8Tトークンで学習された7Bおよび14Bモデル(phi-3-smallおよびphi-3-medium)の結果も報告しています。
A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).
論文要旨(Abstract)
3.3兆トークンで学習された38億パラメータの言語モデル、phi-3-miniを紹介します。学術ベンチマークおよび内部テストの両方で測定された総合性能は、スマートフォンにデプロイできるほど小型であるにもかかわらず、Mixtral 8x7BやGPT-3.5のようなモデルに匹敵する水準に達しています(例: phi-3-miniはMMLUで69%、MT-benchで8.38を達成)。この革新は完全に学習用データセットにあり、これはphi-2で使用されたデータセットを拡張したもので、高度にフィルタリングされたWebデータと合成データで構成されています。このモデルはさらに、堅牢性、安全性、およびチャット形式に合わせて追加調整されています。さらに、4.8Tトークンで学習された7Bおよび14Bモデル、すなわちphi-3-smallとphi-3-mediumによる初期のパラメータスケーリング結果も示しており、両モデルはいずれもphi-3-miniを大きく上回る性能を示します(例: MMLUではそれぞれ75%および78%、MT-benchでは8.7および8.9)。
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).
論文リンク
https://arxiv.org/abs/2404.14219
さらに読む
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1782780923806699716
OpenELM: オープンソースの学習および推論フレームワークを備えた効率的な言語モデルファミリー / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
論文紹介
層ごとのスケーリング戦略を用いてパラメータを効率的に割り当て、効率性と精度を向上させる新しいオープン言語モデルで、270M、450M、1.1B、3Bなどのさまざまなサイズで提供されます。事前学習トークンは2倍少なくて済む一方、OLMoと比較して精度が2.36%向上しています。
A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.
論文要旨(Abstract)
大規模言語モデルの再現性と透明性は、オープンリサーチを前進させ、結果の信頼性を確保し、データやモデルのバイアスおよび潜在的リスクの調査を可能にするうえで非常に重要です。この目的のために、最新のオープン言語モデルであるOpenELMを公開します。OpenELMは、層ごとのスケーリング戦略を用いてトランスフォーマーモデルの各層内にパラメータを効率的に割り当てることで、精度を向上させます。たとえば、パラメータ予算が約10億の場合、OpenELMはOLMoと比べて精度が2.36%向上し、同時に事前学習トークンは $2\times$ 少なくて済みます。 モデルの重みと推論コードのみを提供し、非公開データセットでの事前学習しか行っていなかった従来の事例とは異なり、今回のリリースには、学習ログ、複数のチェックポイント、事前学習設定を含む、公開利用可能なデータセット上で言語モデルを学習・評価するための完全なフレームワークが含まれています。さらに、Appleデバイス上での推論およびファインチューニングのために、モデルをMLXライブラリへ変換するコードも公開します。この包括的なリリースは、オープンリサーチコミュニティを支援し強化することで、今後のオープンリサーチの基盤を築くことを目指しています。 事前学習済みモデルの重みと学習レシピを含むソースコードは \url{https://github.com/apple/corenet} で確認できます。さらに、モデルはHuggingFaceで公開されています: \url{https://huggingface.co/apple/OpenELM}.
The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.
論文リンク
https://arxiv.org/abs/2404.14619
さらに読む
https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204
https://github.com/apple/corenet
https://huggingface.co/apple/OpenELM
https://x.com/rasbt/status/1783480053847736713
Snowflake Arctic
論文紹介
独自のDense-MoEハイブリッドTransformerアーキテクチャを採用したオープンソースLLM(Apache 2.0ライセンス)で、コーディング(HumanEval+ および MBPP+)、SQL(Spider)、命令追従(IFEval)などのエンタープライズ指標においてLlama3 70Bと同等の性能を示し、Llama3 70Bより17倍少ない計算予算を使用すると主張しています。学習計算コストは約200万ドル未満(3K GPU週未満)です。
An open-source LLM (Apache 2.0 license.) that uses a unique Dense-MoE Hybrid transformer architecture; performs on par with Llama3 70B in enterprise metrics like coding (HumanEval+ & MBPP+), SQL (Spider) and instruction following (IFEval); claims to use 17x less compute budget than Llama 3 70B; the training compute is roughly under $2 million (less than 3K GPU weeks).
論文リンク
さらに読む
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1783176059694821632
コンテキストを最大限に活用するLLMを作る / Make Your LLM Fully Utilize the Context
論文紹介
LLMでよく見られる「途中で見失う」問題を克服するためのアプローチを提示しています。Mistral-7Bに明示的な「情報集約型」の学習手順を適用し、LLMがコンテキストを十分に活用できるようにします。このモデルは、1) 合成された長いコンテキスト(4K-32Kトークン)内の短いセグメント(∼128トークン)に対する細粒度の情報認識、および 2) 2つ以上の短いセグメントの情報を統合して推論する必要がある合成データセットを活用します。結果として得られたモデルFILM-7B(Fill-in-the-Middle)は、32Kコンテキストウィンドウ内の異なる位置から情報を安定して取得できることを示しています。
Presents an approach to overcome the lost-in-the-middle challenge common in LLMs. It applies an explicit "information-intensive" training procedure on Mistral-7B to enable the LLM to fully utilize the context. It leverages a synthetic dataset where the answer requires fine-grained information awareness on a short segment (∼128 tokens) within a synthesized long context (4K−32K tokens), and 2) the integration and reasoning of information from two or more short segments. The resulting model, FILM-7B (Fill-in-the-Middle), shows that it can robustly retrieve information from different positions in its 32K context window.
論文要旨(Abstract)
現代の多くの大規模言語モデル(LLM)は長い入力を処理できますが、長いコンテキスト内の情報を完全に活用することには依然として苦労しており、これは「lost-in-the-middle」問題として知られています。私たちは、この問題は長文コンテキスト学習中の明示的な教師信号が不十分であり、長いコンテキストのどの位置にも重要な情報が含まれうることを十分に強調できていないことに起因すると仮説を立てました。この直観に基づき、本研究では lost-in-the-middle 問題を克服するための純粋にデータ駆動型のソリューションとして、情報集約型(IN2)トレーニングを提案します。具体的には、IN2トレーニングは合成された長文コンテキストの質問応答データセットを活用し、そこでは回答を導くために、(1)合成された長文コンテキスト(4K〜32Kトークン)内の短いセグメント(約128トークン)に対するきめ細かな情報認識と、(2)2つ以上の短いセグメントからの情報を統合して推論することが必要です。この情報集約型トレーニングを Mistral-7B に適用し、FILM-7B(FILl-in-the-Middle)を提示します。長いコンテキストを活用する FILM-7B の能力を徹底的に評価するために、さまざまなコンテキストスタイル(文書、コード、構造化データコンテキスト)と情報検索パターン(順方向、逆方向、双方向検索)を網羅する3つのプロービングタスクを設計しました。プロービング結果は、FILM-7B が 32K のコンテキストウィンドウ内のさまざまな位置から安定して情報を取得できることを示しています。これらのプロービングタスクに加えて、FILM-7B は実世界の長文コンテキストタスクにおいて性能を大幅に向上させ(例:NarrativeQA での F1 スコア 23.5->26.9)、短文コンテキストタスクでも同等の性能を維持します(例:MMLU での正解率 59.3->59.2)。GitHub リンク: https://github.com/microsoft/FILM.
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
論文リンク
https://arxiv.org/abs/2404.16811
さらに読む
https://github.com/microsoft/FILM
https://x.com/omarsar0/status/1783905514578980949
FineWeb
論文紹介
言語モデル学習のための15兆トークンを含む大規模Webデータセットで、2013年から2024年までの CommonCrawl をフィルタリングおよび重複排除し、データ品質の向上を目指しています。
A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.
論文リンク
https://huggingface.co/datasets/HuggingFaceFW/fineweb
さらに読む
https://x.com/gui_penedo/status/1781953413938557276
AIベースの遺伝子エディター / AI-powered Gene Editors
論文紹介
大規模な生物学的多様性で学習された LLM によって駆動されるAIシステムにより、プログラム可能な遺伝子エディター設計を通じてヒトゲノムの高精度編集を実現します。
Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.
論文リンク
https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1
さらに読む
https://x.com/thisismadani/status/1782510590839406904
AutoCrawler: Webクローラー生成のための段階的理解Webエージェント / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation
論文紹介
クローラーが多様で変化し続けるWeb環境により効率的に対応できるようにすることを目的として、LLM とクローラーを組み合わせています。Webクローラーエージェントは HTML の階層構造を活用して段階的に理解を深め、トップダウンおよびステップバック操作を用い、DOM ツリー構造を活用して完全で実行可能なクローラーを生成します。
Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.
論文要旨(Abstract)
Web自動化は、一般的なWeb操作を自動化し、運用効率を高め、手動介入の必要性を減らすことで、複雑なWebタスクを実行する重要な技術です。ラッパーのような従来方式は、新しいWebサイトに直面した際の適応性と拡張性に限界があります。一方、大規模言語モデル(LLM)によって駆動される生成エージェントは、オープンワールドのシナリオでは性能と再利用性が低くなります。本研究では、垂直情報Webページに対するクローラー生成タスクと、LLMとクローラーを組み合わせるパラダイムを紹介します。これにより、クローラーは多様で変化するWeb環境をより効率的に処理できるようになります。HTMLの階層構造を活用して段階的に理解する2段階フレームワークであるAutoCrawlerを提案します。AutoCrawlerは、トップダウンおよびステップバック操作を通じて誤った行動から学習し、より良い行動生成のために継続的にHTMLを枝刈りできます。複数のLLMを用いた包括的な実験を行い、このフレームワークの有効性を実証しました。この論文のリソースは \url{https://github.com/EZ-hwh/AutoCrawler} で確認できます
Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}
論文リンク
https://arxiv.org/abs/2404.12753
さらに読む
https://github.com/EZ-hwh/AutoCrawler
https://x.com/omarsar0/status/1782462314983071757
大規模言語モデル(LLM)時代のグラフ機械学習 / Graph Machine Learning in the Era of Large Language Models (LLMs)
論文紹介
グラフMLの最近の進展、グラフ特徴を向上させる方法、OODやグラフ異質性のような問題にどう対処できるかなど、LLM時代のグラフMLに関する最新の発展を包括的に概観します。
Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.
論文要旨(Abstract)
グラフは、ソーシャルネットワーク、知識グラフ、分子発見のようなさまざまな領域で複雑な関係を表現するうえで重要な役割を果たします。ディープラーニングの登場とともに、グラフニューラルネットワーク(GNN)は、グラフ構造の表現と処理を容易にするグラフ機械学習(Graph ML)の中核として台頭しました。近年、LLMは言語タスクにおいて前例のない能力を示し、コンピュータビジョンや推薦システムなど多様なアプリケーションで広く採用されています。この目覚ましい成功は、グラフ領域にLLMを適用することへの関心も呼び起こしました。Graph MLの汎化、転移可能性、少数ショット学習能力を発展させるうえでのLLMの可能性を探る取り組みがますます増えています。一方で、グラフ、特に知識グラフは信頼できる事実知識が豊富であるため、これを活用してLLMの推論能力を向上させ、ハルシネーションや説明可能性の不足といった限界を緩和できる可能性があります。この研究方向の急速な進展を踏まえると、研究者および実務者に深い理解を提供するために、LLM時代のGraph MLに関する最新の進展を整理した体系的なレビューが必要です。そこで本サーベイでは、まずGraph MLの最近の発展を概観します。次に、グラフ特徴の品質を向上させ、ラベル付きデータへの依存を軽減し、グラフの異質性や分布外一般化(OOD)といった課題に対処するために、LLMをどのように活用できるかを検討します。その後、グラフがどのようにLLMを強化できるかを掘り下げ、LLMの事前学習と推論を向上させる機能に焦点を当てます。さらに、さまざまな応用事例を調査し、この有望な分野における今後の可能性のある方向性について議論します。
Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.
論文リンク
https://arxiv.org/abs/2404.14928
さらに読む
https://x.com/omarsar0/status/1783171591020392886
大規模言語モデルの自己進化に関するサーベイ / A Survey on Self-Evolution of Large Language Models
論文紹介
LLMの自己進化アプローチに関する包括的なサーベイを提供します。
Provides a comprehensive survey on self-evolution approaches in LLMs.
論文要旨(Abstract)
大規模言語モデル(LLM)は、さまざまな分野や知的エージェントのアプリケーションで大きく進歩してきました。しかし、人間や外部モデルの監督を通じて学習する現在のLLMはコストが高く、タスクの複雑性と多様性が増すにつれて性能の限界に直面する可能性があります。この問題に対処するため、モデル自身が生成した経験を自律的に獲得・改善・学習できる自己進化アプローチが急速に発展しています。人間の経験学習プロセスに着想を得たこの新しい訓練パラダイムは、LLMを超知能へと拡張できる可能性を提供します。本稿では、LLMの自己進化アプローチに関する包括的なサーベイを紹介します。まず、自己進化の概念的フレームワークを提案し、進化プロセスを経験獲得、経験改善、更新、評価の4段階から成る反復サイクルとして概説します。次に、LLMおよびLLMベースのエージェントの進化目標を分類し、関連文献を要約するとともに、各モジュールに対する分類法とインサイトを提供します。最後に、既存の課題を明確化し、自己進化フレームワークを改善するための今後の方向性を提案することで、研究者が自己進化するLLMの開発を加速させるための重要な知見を提示します。
Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.
論文リンク
https://arxiv.org/abs/2404.14387
さらに読む
https://x.com/omarsar0/status/1782777977526231440
NExT: 大規模言語モデルにコード実行の推論を教える / NExT: Teaching Large Language Models to Reason about Code Execution
論文紹介
プログラムの実行トレースを調べ、合成された思考連鎖を通じてランタイムの挙動を推論できるようにLLMを訓練し、MBPPとHumanEvalにおいてPaLM 2モデルの修正率を26.1%と14.3%向上させ、未知のシナリオにも一般化できることを示しています。
Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.
論文要旨(Abstract)
人間の開発者にとって基本的な能力の1つは、プログラムの実行を理解し、それについて推論する力です。たとえば、プログラマは自然言語でコード実行を頭の中でシミュレートし、コードをデバッグして修復できます(いわゆるラバーダック・デバッグ)。しかし、コード向けの大規模言語モデル(LLM)は通常、プログラムの表層的なテキスト形式で学習されるため、実行時にプログラムがどのように動作するかについての意味的理解を欠いている可能性があります。この問題に対処するため、私たちはNExTを提案します。これは、LLMにプログラムの実行トレース(実行された行における変数状態)を調べさせ、思考連鎖(CoT)の論拠を通じてランタイムの挙動を推論することを教える手法です。具体的には、NExTは自己学習を用いて、面倒な手動アノテーションなしに正しいタスク解(例: 修正済みプログラム)へと導く、実行認識型推論の合成学習セットをブートストラップします。MBPPおよびHumanEvalに基づくプログラム修復タスクでの実験結果は、NExTがPaLM 2モデルの修正率をそれぞれ絶対値で26.1%と14.3%向上させ、自動評価指標と人間評価者の両方によって検証されたように、論拠の質も大幅に改善することを示しました。さらに、このモデルはテスト時にプログラムトレースが存在しないシナリオにも一般化できます。
A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.
論文リンク
https://arxiv.org/abs/2404.14662
さらに読む
https://x.com/AnsongNi/status/1783311827390070941
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c
この記事はGPTモデルで整理したものであり、誤りが含まれている可能性があるため、記事下部の原文もあわせてご参照ください。お読みいただく中で不自然な点や誤った内容を見つけられた場合は、コメントでお知らせいただけますと幸いです。
⚠️広告⚠️: PyTorch Korea User Groupがまとめたこの記事は役に立ちましたか? 会員登録していただくと、主要な記事をメールでお送りします! (基本はWeeklyですが、Dailyへの変更も可能です。)
まだコメントはありません。