4 ポイント 投稿者 ninebow 2023-11-21 | まだコメントはありません。 | WhatsAppで共有

概要

  • DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。

  • 今週は、LLM(Large Language Models)、つまり大規模言語モデルを改善・拡張する研究が中心でした。特に、LLMの高いコストパフォーマンスでの動作、科学的発見への活用、そして実用的なコード生成のための言語モデルに関する論文が含まれています。それだけでなく、これらのモデルの事実性を高めるための研究も進んでいる傾向が見られます。

  • 言語モデル、特にLLMは自然言語処理(NLP)分野で注目を集めています。これは、モデルがより人間らしく、複雑で多様な言語タスクを処理できるようになったためでしょう。こうしたモデルは、体系的な思考の模倣(Contrastive CoT Prompting)や、コード開発における自動化の向上(A Survey on Language Models for Code)など、さまざまな領域に応用できます。また、LLMをさらに進化させる方法として、たとえば正確なコンテキストフィルタリングによる情報検索の強化(Learning to Filter Context for RAG)や、ユーザーを欺かない方向での研究(LLMs can Deceive Users)も重要な研究動向です。


EmuビデオおよびEmu編集 / Emu Video and Emu Edit

論文紹介

  • 拡散モデルをベースにした、制御可能な画像編集とテキストから動画を生成するための新しいモデルを提示します。Emu Videoは、テキストのみ、画像のみ、またはテキストと画像入力を組み合わせて高品質な動画を生成でき、Emu Editはテキスト指示によって自由形式の編集を可能にします。

    Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.

論文リンク

https://ai.meta.com/blog/…

さらに読む

https://x.com/AIatMeta/status/1725184026154349007


CoN(Chain-of-Note):検索拡張言語モデルの堅牢性向上 / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

論文紹介

  • ノイズが多く関連性のない文書や未知のシナリオを扱う際に、検索拡張言語モデルの堅牢性と信頼性を向上させるアプローチです。検索された文書に対する逐次的な読解ノートを生成することで、与えられた質問との関連性を評価し、その情報を統合して最終回答を構成できるようにします。CoNは標準的な検索拡張言語モデルを大きく上回り、完全にノイズのみの検索文書が与えられた場合のEMスコアで平均+7.9、事前学習の知識範囲を超えるリアルタイム質問に対する拒否率で+10.5を達成しました。

    An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

論文要旨

  • 検索拡張言語モデル(RALM)は、大規模言語モデルの能力、特に外部知識ソースを活用して事実誤認によるハルシネーションを減らす点で大きな進歩を遂げてきました。しかし、検索された情報の信頼性が常に保証されるわけではありません。無関係なデータを検索すると誤った応答につながる可能性があり、クエリを解決できる十分な情報をモデル自身が持っている場合であっても、その固有知識を見落とすことがあります。さらに、標準的なRALMは、正確な回答を行うために内在知識と検索知識の両方について十分な知識を持っているかを評価することにしばしば苦労します。知識が不足している状況では、こうしたシステムは答えが得られない場合に「unknown」と応答するのが理想的です。これらの課題に対処するため、ノイズが多く無関係な文書への対処や、未知のシナリオの処理におけるRALMの堅牢性を改善する新しい手法として、CoN(Chain-of-Noting)が導入されました。CoNの中核となる発想は、検索された文書に対する逐次的な読解ノートを生成し、与えられた質問との関連性を徹底的に評価したうえで、この情報を統合して最終回答を構成することです。CoN用の学習データはChatGPTを用いて生成され、その後LLaMa-2 7Bモデルで学習が行われました。4つのオープンドメインQAベンチマークでの実験の結果、CoNを搭載したRALMは標準的なRALMを大幅に上回ることが示されました。特に、CoNは完全にノイズのある検索文書が与えられた場合のEMスコアで平均+7.9ポイント、事前学習知識の範囲外にあるリアルタイム質問に対する拒否率で平均+10.5ポイントの改善を達成しました。

    Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

論文リンク

https://arxiv.org/abs/2311.09210

さらに読む

https://x.com/omarsar0/status/1725181141693472959


大規模言語モデルが科学的発見に与える影響: GPT-4を用いた予備的研究 / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

論文紹介

  • 創薬、生物学、計算化学など多様な科学分野における大規模言語モデル、特にGPT-4の影響を探り、専門家主導のケース評価とベンチマークテストを通じて、複雑な科学概念に対するGPT-4の理解、問題解決能力、科学研究を前進させる可能性を評価します。

    Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.

論文要旨

  • 近年、自然言語処理における画期的な進歩により、強力な大規模言語モデル(LLM)が登場し、自然言語の理解・生成・翻訳はもちろん、言語処理を超えるタスクにまで及ぶ幅広い領域で驚異的な性能を示してきました。本レポートでは、最先端の言語モデルであるGPT-4を中心に、科学的発見の文脈におけるLLMの性能を詳しく調べます。創薬、生物学、計算化学(密度汎関数理論(DFT)および分子動力学(MD))、材料設計、偏微分方程式(PDE)など、多様な科学分野にまたがる広範な研究を行いました。科学的課題に対するGPT-4の評価は、さまざまな研究領域における潜在力の発見、分野別の専門性の検証、科学的進歩の加速、資源配分の最適化、将来のモデル開発の指針提示、学際的研究の促進において非常に重要です。私たちの探索方法論は主に、複雑な科学概念とその関係に対するモデルの理解について質的な洞察を与える専門家主導のケース評価と、明確に定義された分野固有の問題を解決するモデルの能力を定量的に評価するベンチマークテストで構成されています。予備的な調査結果では、GPT-4は複雑な問題解決や知識統合作業の処理に適していることが示され、さまざまな科学応用分野で有望な可能性を示しました。大きく言えば、GPT-4の知識基盤、科学的理解、科学的数値計算能力、さまざまな科学的予測能力を評価しています。

    In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.

論文リンク

https://arxiv.org/abs/2311.07361

さらに読む

https://x.com/omarsar0/status/1724465107046940893


事実性に合わせた言語モデルのファインチューニング / Fine-tuning Language Models for Factuality

論文紹介

  • 人手によるラベル付けを必要とせずに、事実性に合わせて言語モデルをファインチューニングし、自動生成された事実性の選好ランキングから学習し、オープンエンド生成設定を対象とし、事実性を目的としたRLHFやデコーディング戦略と比べて、保留されたトピックに対するLlama-2の事実性を大幅に改善します。

    Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.

論文要旨

  • 事前学習済みの大規模言語モデル(LLM)の流暢さと創造性により、言語モデルは広く使われるようになり、ときには従来の検索エンジンの代替として使われることさえあります。しかし言語モデルは、しばしば「ハルシネーション」と呼ばれる、もっともらしいものの事実と異なる主張を行う傾向があります。こうした誤りは、意図せず誤情報を広めたり、誤解を固定化したりするおそれがあります。また、モデル応答の手作業によるファクトチェックは時間のかかるプロセスであるため、人手で事実性を確認するには大きなコストがかかります。本研究では、人手によるラベル付けなしに、従来研究よりもオープンエンドな生成設定を対象として、言語モデルがより事実に即した応答を生成するよう微調整します。そのために、近年のNLPにおける2つの主要な革新を活用します。第一に、近年の複数の研究では、外部知識ベースとの整合性、あるいは単に大規模モデルの信頼度スコアを測定することで、オープンエンドなテキストの事実性を判断する手法が提案されています。第二に、Direct Preference Optimizationアルゴリズムを用いることで、可能なモデル応答に対する選好順位を使い、教師あり模倣以外の目的に対しても言語モデルを直接微調整できます。既存の検索システム、あるいは新しい検索不要のアプローチによって自動生成された事実性選好順位から学習することで、RLHFや事実性を目的としたデコーディング戦略と比べ、Llama-2の保留トピックに対する事実性(生成された主張のうち正しい主張の割合)が大幅に向上することを示します。7B規模では、Llama-2-chatと比較して、伝記生成および医療質問への回答における事実誤り率がそれぞれ58%と40%減少しました。

    The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

論文リンク

https://arxiv.org/abs/2311.08401

さらに読む

https://x.com/arankomatsuzaki/status/1724613041155608951


対照的な思考の連鎖(CoT)プロンプティング / Contrastive Chain-of-Thought Prompting

論文紹介

  • 言語モデルの推論を向上させるために、対照的な思考の連鎖手法(CoT)を提案します。このアプローチでは、有効な推論と無効な推論のデモの両方を提供することで、モデルが段階的に推論するよう導きつつ、推論ミスを減らします。さらに、対照的なデモを構成する自動的な方法を提案し、CoTプロンプティングより改善されることを示します。

    Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.

論文要旨

  • 言語モデルの推論を向上させるうえで chain of thought は成功を収めているものの、その根本的なプロセスは依然として十分には理解されていません。論理的に妥当な推論は chain of thought に本質的に重要だと考えられる一方、先行研究では、代わりに不正なデモンストレーションを用いても影響がごく小さいことが意外にも示されています。さらに、従来の chain of thought は言語モデルにどのような誤りを避けるべきかを伝えないため、かえってより多くのエラーを引き起こす可能性があります。そこで、人間が正例と負例の両方から学習できる点に着想を得て、言語モデルの推論を強化するために contrastive chain of thought を提案します。従来の chain of thought と比べて、このアプローチは有効な推論と誤った推論の両方を示すことで、推論ミスを減らしつつ、モデルが段階的に推論できるよう導きます。一般化を改善するために、対照的なデモンストレーションを自動構築する手法も導入しました。推論ベンチマークでの実験により、contrastive chain of thought が chain-of-thought prompting を全体的に強化する一般的な手法として機能しうることを示しました。

    Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.

論文リンク

https://arxiv.org/abs/2311.09277

さらに読む

https://x.com/arankomatsuzaki/status/1725340150819905723


コード言語モデルに関するサーベイ論文 / A Survey on Language Models for Code

論文紹介

  • 50以上のモデル、30以上の評価タスク、500以上の関連研究のレビューを含む、コード向けLLMの概要を提供します。

    Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.

論文要旨

  • 本研究では、50以上のモデル、30以上の評価タスク、500以上の関連研究を対象に、言語モデルを用いたコード処理の最近の進展を体系的にレビューします。コード処理モデルを、GPTファミリーに代表される汎用言語モデルと、コードに特化して事前学習された専用モデル(多くは目的に合わせて設計されたもの)に分類します。これらのモデル間の関係と違いを議論するとともに、統計モデルやRNNから事前学習済みTransformer、そしてLLMへと至るコードモデリングの歴史的変遷を強調しますが、これはNLPがたどってきた道筋とまったく同じです。また、AST、CFG、ユニットテストといったコード固有の特徴と、それらをコード言語モデルの学習に適用する方法についても議論し、この分野における主要な課題と将来の有望な方向性を明らかにします。本サーベイは GitHub リポジトリ(https://github.com/codefuse-ai/…

    In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.

論文リンク

https://arxiv.org/abs/2311.07989v1

さらに読む

https://x.com/omarsar0/status/1725637165256761553


JARVIS-1: メモリ拡張型マルチモーダル言語モデルを備えたオープンワールド・マルチタスクエージェント / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

論文紹介

  • オープンワールドの Minecraft 世界内で、視覚的観察や人間の指示といった複合的な入力を認識し、高度な計画を生成して具現化された制御を実行できるオープンワールドエージェントであり、Minecraft 世界内の200以上のタスクでほぼ完璧な性能を示し、長期的な diamond pickaxe タスクでは従来記録の5倍にあたる12.5%の完了率を達成しました。

    An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.

論文要旨

  • オープンワールドでマルチモーダル観測を通じて人間のような計画と制御を実現することは、より機能的な汎用エージェントに向けた重要なマイルストーンです。既存のアプローチは、オープンワールドにおける特定の長期タスクには対応できます。しかし、オープンワールドのタスク数は潜在的に無限に増え得るうえ、ゲーム時間の経過に伴ってタスク完了度を段階的に向上させる能力が不足しているため、依然として困難が残っています。Unityは、人気がありながらも挑戦的なオープンワールドのMinecraft世界観の中で、視覚的観測や人間の指示といった複合的な入力を認識し、精緻な計画を生成し、具現化された制御を実行できるオープンワールドエージェント JARVIS-1 を紹介します。特にUnityは、視覚的観測とテキスト指示を計画へマッピングする事前学習済みマルチモーダル言語モデルを基盤として JARVIS-1 を開発しています。この計画は最終的に、目標条件付きコントローラへ渡されます。Unityは JARVIS-1 にマルチモーダルメモリを搭載し、事前学習済みの知識と実際のゲーム内サバイバル経験の両方を用いて計画を立てられるようにしています。Unityの実験結果では、JARVIS-1 は初級から中級にわたる Minecraft Universe Benchmark の200以上の多様なタスクで、ほぼ完璧な性能を示しました。JARVIS-1 は、長期ホライズンのダイヤモンドのツルハシ作成タスクで 12.5% の完了率を達成しました。これは従来記録と比べて最大5倍の大幅な向上です。さらに、マルチモーダルメモリのおかげで、生涯学習パラダイムに従って JARVIS-1 がより汎用的な知能と向上した自律性を獲得し、$\textit{自己改善}$できることも示されました。プロジェクトページは https://craftjarvis-jarvis1.github.io で確認できます。

    Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.

論文リンク

https://arxiv.org/abs/2311.05997

さらに読む

https://x.com/arankomatsuzaki/status/1723882043514470629


FILCO: 検索拡張生成のためのコンテキストフィルタリング学習方式 / Learning to Filter Context for Retrieval-Augmented Generation

論文紹介

  • 生成器に提供される文脈の品質を2段階で改善する方法を提案します: 1) 語彙的および情報理論的アプローチに基づいて有用なコンテキストを特定し、2) 推論時に検索されたコンテキストをフィルタリングできるコンテキストフィルタリングモデルを学習することで、抽出的質問応答(QA)、複雑なマルチホップおよび長文QA、ファクト検証、対話生成タスクで既存手法を上回る性能を示します。

    Proposes a method that improves the quality of the context provided to the generator via two steps: 1) identifying useful context based on lexical and information-theoretic approaches, and 2) training context filtering models that can filter retrieved contexts at inference; outperforms existing approaches on extractive question answering (qa), complex multi-hop and long-form qa, fact verification, and dialog generation tasks.

論文要旨

  • 関連知識の即時検索は、オープンドメイン質問応答やファクトチェックのようなタスクにおいて、信頼できるシステムの必須要素であることが示されています。しかし、検索システムは完全ではないため、部分的または完全に無関係なパッセージが与えられた場合でも出力を生成するには生成モデルが必要です。その結果、文脈への依存が過度に高くなったり低くなったりし、生成された出力にハルシネーションのような問題が生じる可能性があります。こうした問題を緩和するために、(1) 語彙的および情報理論的なアプローチに基づいて有用な文脈を特定し、(2) テスト時に検索された文脈をフィルタリングできる文脈フィルタリングモデルを学習することで、生成器に与えられる文脈の品質を改善する手法であるFILCOを提案します。FLAN-T5とLLaMa2を用いて6つの知識集約型タスクで実験を行い、抽出的質問応答(QA)、複雑なマルチホップおよび長文形式のQA、ファクトチェック、対話生成タスクにおいて既存手法を上回る性能を示しました。FILCOは、標準出力をサポートしているかどうかにかかわらず、コンテキストの品質を効果的に改善します。

    On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.

論文リンク

https://arxiv.org/abs/2311.08377v1

さらに読む

https://x.com/ZhiruoW/status/1724792850079252886


MART: 複数ラウンドの自動レッドチーミングによるLLM安全性の向上 / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

論文紹介

  • マルチラウンドの自動敵対的プロンプト作成と安全な応答生成を統合することで、敵対的プロンプト作成のスケーラビリティとLLMの安全性を高め、安全性アラインメントが限定的なLLMの違反率がMARTを4ラウンド行った後に最大84.7%低下し、広範な敵対的プロンプト作成を用いるLLMに匹敵する性能を達成するなど、LLMの安全性を改善するためのアプローチを提案します。

    Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.

論文要旨

  • レッドチーミングは、大規模言語モデル(LLM)の安全でない挙動を緩和するための一般的な実践であり、LLMを徹底的に評価して潜在的な欠陥を特定し、それに対して責任ある正確な応答で対処することを含みます。効果的ではあるものの、手動のレッドチーミングは高コストであり、既存の自動レッドチーミングは一般に安全上のリスクを発見するだけで、それを解決しないことが多いです。本論文では、自動の敵対的プロンプト作成と安全な応答生成の両方を統合し、レッドチーミングのスケーラビリティと対象LLMの安全性を大幅に向上させる多ラウンド自動レッドチーミング(MART)手法を提案します。具体的には、敵対的LLMと標的LLMが反復的な形で相互作用し、敵対的LLMは標的LLMから安全でない応答を引き出す困難なプロンプトの生成を目指し、標的LLMはそれらの敵対的プロンプトに対して安全性に整合したデータでファインチューニングされます。各ラウンドで、敵対的LLMは更新された標的LLMに対するより優れた攻撃を作成し、標的LLMも安全性ファインチューニングを通じて自身を改善します。敵対的プロンプトのベンチマークでは、安全性アラインメントが限定的なLLMの違反率が、4ラウンドのMART後に最大84.7%低下し、広範な敵対的プロンプト作成を用いるLLMと同等の性能を達成します。特に、非敵対的プロンプトに対するモデルの有用性は反復を通じて安定して維持されており、標的LLMが指示追従において強力な性能を維持していることを示しています。

    Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.

論文リンク

https://arxiv.org/abs/2311.07689

さらに読む

https://x.com/AIatMeta/status/1724887918685425829


技術報告書: 大規模言語モデルは圧力を受けると戦略的にユーザーを欺くことができます / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure

論文紹介

  • LLMによって駆動される自律型株式取引エージェントの利用を検討し、このエージェントがインサイダー情報に基づいて行動し、取引判断の理由を隠すことを発見するとともに、有用で安全なロボアドバイザーが、指示や欺瞞のための学習なしでも、現実的な状況でユーザーを戦略的に欺く可能性があることを示します。

    Explores the use of an autonomous stock trading agent powered by llms; finds that the agent acts upon insider tips and hides the reason behind the trading decision; shows that helpful and safe llms can strategically deceive users in a realistic situation without direction instructions or training for deception.

論文要旨

  • 役に立ち、無害で、正直であるよう訓練された大規模言語モデルが、指示されていないにもかかわらず不整合な行動を示し、その行動についてユーザーを戦略的に欺く状況を実演します。具体的には、現実的なシミュレーション環境でGPT-4をエージェントとして配備し、自律的な株式取引エージェントの役割を担わせます。この環境でモデルは、利益性の高い株式取引に関するインサイダー情報を入手し、インサイダー取引が会社経営陣に承認されていないと認識しているにもかかわらず、それを実行します。管理者に報告する際、このモデルは取引判断の本当の理由を一貫して隠します。推論用スクラッチパッドへのモデルのアクセス権を削除する、システム指示を変更して不整合な行動を防ごうとする、モデルが受けるプレッシャーの量を変える、発覚するリスクについての認識を変える、そのほか環境に簡単な変更を加えるなど、設定を変更した際にこの行動がどのように変化するかを簡単に調査しました。私たちの知る限り、これは、役に立ち、無害で、正直であるよう訓練された大規模言語モデルが、直接の指示や欺瞞のための訓練なしに、現実的な状況でユーザーを戦略的に欺くことを示した初のデモです。

    We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.

論文リンク

https://arxiv.org/abs/2311.07590

さらに読む

https://x.com/ESYudkowsky/status/1725226563992715521


原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d

まだコメントはありません。

まだコメントはありません。