[2025/01/13 ~ 01/19] 今週の主要ML論文(Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳しました。
-
今週選ばれた論文の顕著な傾向は、大規模言語モデル(LLM, Large Language Models)およびマルチモーダルAIに関する研究が活発である点です。たとえば、"Self-Adaptive LLMs"、"Foundations of LLMs"、"Enhancing RAG"、"VideoRAG"といった論文は、LLMおよびマルチモーダル学習に関するテーマを扱っています。また、"Imagine while Reasoning in Space"、"OmniThink"のような論文も、多様な形式のデータを活用して複合的な問題解決を試みるマルチモーダルなアプローチを探究しています。
-
こうした傾向は、現在のAI研究コミュニティにおいて言語モデルの重要性が高まっていること、そして多様なデータを組み合わせてより包括的な理解を実現しようとする取り組みが増えていることを意味します。LLMは自然言語処理(NLP)の最先端を牽引しており、こうした技術をさらに発展させるには、マルチモーダルデータを活用した統合的なアプローチが必要だという認識が広がっているようです。特にマルチモーダルAIは、画像による理解と言語による理解を組み合わせることで、より複雑な問題を解くうえで重要な役割を果たしています。
-
結論として、今週の論文群は、AI研究の中心が大規模言語モデルとマルチモーダル学習に集中していることを示しています。これは、AIが単なるテキスト処理にとどまらず、視覚情報との融合を通じて、より知的で複雑な問題解決を可能にする方向へ進んでいることを示唆しています。したがって、こうした研究は今後のAI技術の発展に大きな影響を与えると期待されます。
$\text{Transformer}^2$: 自己適応型LLM / $\text{Transformer}^2$: Self-adaptive LLMs
論文紹介
重み行列の特異成分のみを選択的に調整することで、未知のタスクに対してリアルタイムにLLMを適応させる新しい自己適応フレームワーク、$\text{Transformer}^2$ を紹介します。これは2つの主要な段階で構成されます。1) 入力されるタスクの特性を分析して識別するディスパッチシステム、2) 強化学習によって訓練された「専門家」ベクトルを組み合わせてタスク固有の挙動を生成する段階です。より少ないパラメータでLoRAより効率的であり、さまざまなLLMアーキテクチャで動作可能だと主張しています。
Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.
論文抄録(Abstract)
自己適応型大規模言語モデル(LLM)は、多様なタスクを処理するうえで、計算コストが高く静的でもある従来のファインチューニング手法が抱える課題の解決を目指します。ここでは、重み行列の特異成分のみを選択的に調整することで、未知のタスクに対してリアルタイムにLLMを適応させる新しい自己適応フレームワークである $\text{Transformer}^2$ を紹介します。推論時に $\text{Transformer}^2$ は2パスメカニズムを用います。まず、ディスパッチシステムがタスクの特性を識別し、その後、強化学習で訓練されたタスク固有の「専門家」ベクトルを動的に混合して、入力プロンプトに対する目的の挙動を得ます。この手法は、LoRAのような広く使われている手法よりも、少ないパラメータで高い効率を実現し、より優れた性能を示します。$\text{Transformer}^2$ は、ビジョン・ランゲージタスクを含むさまざまなLLMアーキテクチャやモダリティにまたがって高い汎用性を示します。$\text{Transformer}^2$ は、LLMの適応性とタスク固有性能を向上させるスケーラブルで効率的なソリューションを提供する重要な前進であり、真に動的で自己組織化するAIシステムへの道を開くものです。
Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.
論文リンク
https://arxiv.org/abs/2501.06252
さらに読む
https://discuss.pytorch.kr/t/…
https://x.com/hardmaru/status/1879331049383334187
MiniMax-01: 稲妻のような速さで拡張するファウンデーションモデル / MiniMax-01: Scaling Foundation Models with Lightning Attention
論文紹介
専門家混合を統合した新しいモデルシリーズを導入し、32人のエキスパートと4560億個のパラメータを持つモデルを発表、各トークンについて459億個のパラメータが活性化されます。GPT-4oやClaude-3.5-Sonnetのような最先端モデルに匹敵する性能を主張しつつ、20〜32倍長いコンテキストウィンドウを提供し、最大400万トークンを扱えます。さらに、線形アテンションと最適化されたハードウェア活用を統合することでLLMの効率性とスケーラビリティを向上させ、512億個の視覚言語トークンによる継続学習で構築されたMiniMax-VL-01というビジョンモデルもあります。
Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.
論文要旨(Abstract)
より長いコンテキストの処理で卓越した性能を提供しつつ、最上位モデルに匹敵するMiniMax-Text-01とMiniMax-VL-01を含むMiniMax-01シリーズを紹介します。中核となるのは、lightning attentionとその効率的なスケーリングです。計算能力を最大化するため、これをMixture of Experts(MoE)と統合し、32人のエキスパートと総計4560億個のパラメータからなるモデルを構築しました。このうち459億個が各トークンに対して活性化されます。私たちは、MoEとlightning attention向けに最適化された並列戦略と、非常に効率的な計算・通信オーバーラップ技法を開発しました。このアプローチにより、数百万トークンにまたがるコンテキスト全体で、数千億パラメータ規模のモデルに対して効率的な学習と推論を実行できます。MiniMax-Text-01のコンテキストウィンドウは、学習時には最大100万トークンに達し、推論時には手頃なコストで400万トークンまで外挿できます。視覚言語モデルであるMiniMax-VL-01は、512億個の視覚言語トークンによる継続学習を通じて構築されました。標準ベンチマークおよび独自ベンチマークでの実験の結果、このモデルはGPT-4oやClaude-3.5-Sonnetのような最先端モデルに匹敵する性能を示しながら、20〜32倍長いコンテキストウィンドウを提供することが分かりました。MiniMax-01は https://github.com/MiniMax-AI で公開されています。
We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.
論文リンク
https://arxiv.org/abs/2501.08313
さらに読む
https://x.com/omarsar0/status/1879572512075587872
VideoRAG: 動画コーパス上の検索拡張生成 / VideoRAG: Retrieval-Augmented Generation over Video Corpus
論文紹介
動画コンテンツを外部知識ソースとして活用し、RAGを強化するフレームワークです。主にテキストや画像に焦点を当てる既存のRAGアプローチとは異なり、VideoRAGはクエリに基づいて関連する動画を動的に検索し、その視覚的要素とテキスト要素の両方を生成プロセスに統合します。このフレームワークは、大規模動画言語モデル(LVLM)を用いて動画コンテンツを直接処理することで、静的モダリティでは伝えきれない時間的ダイナミクス、空間的な詳細、マルチモーダルな手がかりをより効果的に捉えられます。テキストによる説明がない動画については、自動音声認識を用いてトランスクリプトを生成し、視覚モダリティとテキストモダリティの両方を活用できるよう提案しています。
A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.
論文要旨(Abstract)
検索拡張生成(RAG)は、クエリに関連する外部知識を検索し、それを生成プロセスに統合することで、基盤モデルが事実と異なる出力を生成する問題に対処するための強力な戦略です。しかし、既存のRAGアプローチは主にテキスト情報に焦点を当てており、近年では画像を考慮し始めた高度な手法も一部登場しているものの、イベント、プロセス、文脈的な詳細を他のどのモダリティよりも効果的に表現できる、豊かなマルチモーダル知識源である動画を見落としがちです。最近のいくつかの研究では、応答生成プロセスに動画を統合する方法が模索されていますが、クエリに応じて検索するのではなく、クエリ関連動画をあらかじめ定義したり、動画の豊かなマルチモーダル性を活用せずにテキスト記述へ変換したりしています。これらの問題に対処するため、クエリとの関連性に基づいて関連動画を動的に検索するだけでなく、出力生成時に動画の視覚情報とテキスト情報の両方を活用する新しいフレームワークであるVideoRAGを紹介します。さらに、これを実現するために、動画コンテンツを直接処理して検索用に表現し、検索された動画をクエリとともにシームレスに統合できる、近年進展の著しい大規模動画言語モデル(LVLM)を中核として手法を実装しました。実験によりVideoRAGの有効性を検証し、関連ベースラインを上回ることを示します。
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.
論文リンク
https://arxiv.org/abs/2501.05874
さらに読む
https://x.com/omarsar0/status/1878827350315659421
タイタンズ:テスト時に記憶する方法を学ぶ / Titans: Learning to Memorize at Test Time
論文紹介
神経長期記憶モジュールを導入し、過去の文脈を記憶しながら長い過去情報を活用しつつ現在の文脈に注意を向けられるようにするこのモジュールは、注意機構だけを用いる場合よりも長期的で持続的な記憶として機能し(注意はより短期的とみなされる)、神経記憶に基づくTitanは、言語モデリング、常識推論、ゲノミクス、時系列タスクで良好な結果を示します。
Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.
論文要旨(Abstract)
10年以上にわたり、反復モデルとアテンションをどのように効果的に活用するかについて、幅広い研究が行われてきました。反復モデルはデータを固定サイズのメモリ(隠れ状態と呼ばれる)に圧縮することを目指す一方、アテンションはすべてのトークンの直接的な依存関係を捉えることで、コンテキストウィンドウ全体に注意を向けることを可能にします。しかし、このような依存関係のより正確なモデリングには二次的なコストが伴い、モデルを固定長のコンテキストに制限します。私たちは、過去のコンテキストを記憶する方法を学習し、長い過去の情報を活用しながらアテンションが現在のコンテキストに注意を向けられるよう支援する、新しいニューラル長期記憶モジュールを提案します。さらに、このニューラルメモリは、高速な推論を維持しつつ、高速に並列化可能な学習を実現できるという利点を持つことを示します。メモリの観点から見ると、コンテキストは限定的であるものの正確な依存関係モデリングを行うアテンションは短期記憶として機能し、一方でデータを記憶する能力を持つニューラルメモリは、より長期的で持続的な記憶として機能すると私たちは主張します。これら2つのモジュールに基づき、Titansと呼ばれる新しいアーキテクチャ群を導入し、このアーキテクチャにメモリを効果的に組み込む方法に対応する3つの変種を提示します。言語モデリング、常識推論、ゲノミクス、時系列タスクに関する実験結果は、TitansがTransformerや最新の線形反復モデルよりも効果的であることを示しています。さらに、ベースラインと比較して needle-in-haystack タスクでより高い精度を維持しながら、2Mを超えるコンテキストウィンドウサイズへ効果的にスケールできます。
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
論文リンク
https://arxiv.org/abs/2501.00663
さらに読む
https://x.com/omarsar0/status/1879896681010921742
大規模言語モデルの基礎 / Foundations of Large Language Models
論文紹介
事前学習、プロンプト、アライメント手法などの領域を扱う、LLMの基礎に関する新たなサーベイ。
New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.
論文要旨(Abstract)
これは大規模言語モデルに関する書籍です。タイトルが示すとおり、最先端技術を網羅的に扱うのではなく、主に基礎概念に焦点を当てています。本書は4つの主要章で構成されており、それぞれが重要な領域である事前学習、生成モデル、プロンプト技法、アライメント手法を探究しています。自然言語処理および関連分野の大学生、専門家、実務者を対象としており、大規模言語モデルに関心のあるすべての人にとって参考資料となり得ます。
This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.
論文リンク
https://arxiv.org/abs/2501.09223
さらに読む
https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895
https://x.com/omarsar0/status/1880284477445767586
OmniThink: 思考を通じた機械ライティングの知識境界の拡張 / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
論文紹介
人間のような反復的な拡張と内省のプロセスをエミュレートする新しいフレームワークであり、学習者が知識を深める際の認知行動をシミュレートするよう設計されています。RAGやロールプレイングと比べて、OmniThinkは継続的な内省と探索を通じて知識の境界を拡張できるため、長文生成が必要なユースケースに最適です。
A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.
論文要旨(Abstract)
大規模言語モデルを用いた機械ライティングは、検索拡張生成に依存することが少なくありません。しかし、このようなアプローチはモデルのあらかじめ定義された範囲内にとどまるため、情報量の豊富なコンテンツ生成には限界があります。特に、素朴な検索で取得された情報は深みや有用性に欠け、冗長になりがちで、生成記事の品質に悪影響を与え、浅く反復的で独創性に乏しい出力につながります。これらの問題に対処するため、人間のような反復的な拡張と内省のプロセスを模倣する機械ライティングフレームワーク、OmniThinkが提案されています。OmniThinkの中核となる考え方は、学習者がトピックに関する知識を徐々に深めていく際の認知行動をシミュレートすることです。実験結果によれば、OmniThinkは一貫性や深さといった指標を損なうことなく、生成文書の知識密度を向上させることが示されました。人手評価と専門家のフィードバックは、長文記事の生成における現実的な課題に対処しうるOmniThinkの可能性をさらに強調しています。
Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.
論文リンク
https://arxiv.org/abs/2501.09751
さらに読む
https://x.com/omarsar0/status/1880275861401923619
検索拡張生成の改善:ベストプラクティス研究 / Enhancing Retrieval-Augmented Generation: A Study of Best Practices
論文紹介
検索戦略、クエリ拡張、対照的インコンテキスト学習、プロンプト設計、チャンキングなど、RAGシステムを改善する要素と手法を体系的に検討しています。
Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.
論文要旨(Abstract)
検索拡張生成(RAG)システムは近年、検索メカニズムを言語モデルに統合することで、より正確で文脈に即した応答を生成する能力を高め、著しい進展を見せています。しかし、RAGシステム内のさまざまな構成要素や設定が与える影響は、いまだ十分に解明されていません。複雑な検索タスクに合わせてRAGシステムを調整し、多様なアプリケーションで最適な性能を確保するには、これらの要素を包括的に理解することが不可欠です。本論文では、クエリ拡張、多様な新規検索戦略、新しい Contrastive In-Context Learning RAG を組み込んだ複数の高度なRAGシステム設計を開発しています。本研究では、言語モデルのサイズ、プロンプト設計、文書チャンクサイズ、知識ベースのサイズ、検索ストライド、クエリ拡張技術、Contrastive In-Context Learning の知識ベース、多言語知識ベース、文レベルで関連文脈を取得する Focus Mode などの主要要因を体系的に調査しています。広範な実験を通じて、これらの要因が応答品質にどのような影響を与えるかについて詳細な分析を提供します。これらの知見は、RAGシステム開発のための実践的なインサイトを提供し、文脈の豊かさと検索・生成効率のバランスを取りながら、さまざまな実世界シナリオでより適応性が高く高性能なRAGフレームワークを構築する道を開くものです。コードと実装の詳細は公開されています。
Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.
論文リンク
https://arxiv.org/abs/2501.07391
さらに読む
https://x.com/omarsar0/status/1879178916021318029
AutoCBT: 心理カウンセリングにおける認知行動療法のための自律型マルチエージェントフレームワーク / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling
論文紹介
認知行動療法のためのマルチエージェントフレームワークであるAutoCBTを提案します。この研究では、単一ターンの心理カウンセリングシナリオに対して高品質な応答を生成する汎用マルチエージェントフレームワークを提案し、動的ルーティング、メモリ、および監督メカニズムの組み合わせを用いて各エージェントの自律能力を向上させています。実験結果は、AutoCBTが高品質な自動心理カウンセリングサービスを提供できることを示しており、他の純粋なプロンプトベースのカウンセリングフレームワークと比べて対話品質を改善します。
Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.
論文要旨(Abstract)
従来の対面式心理カウンセリングは、主として心理的問題を抱える個人が選ぶニッチな選択肢にとどまっていますが、オンライン自動カウンセリングは、羞恥心のために助けを求めることをためらう人々にとって潜在的な解決策を提示します。認知行動療法(CBT)は、心理カウンセリングにおいて不可欠で広く用いられているアプローチです。大規模言語モデル(LLM)とエージェント技術の登場により、自動CBT診断と治療が可能になりました。しかし、現在のLLMベースCBTシステムは、固定構造のエージェントを使用しているため自己最適化能力が制限されていたり、重複した応答パターンによって空疎で役に立たない提案を返したりします。本研究では、Quoraのような単一相談モデルおよびYiXinLi単一相談モデルを活用し、単一ターンの心理カウンセリングシナリオに対して高品質な応答を生成する汎用エージェントフレームワークを構築します。さらに、バイリンガルデータセットを用いて各フレームワークで生成された単一応答カウンセリングの品質を評価します。その後、実際の心理カウンセリングに着想を得た動的ルーティングおよび監督メカニズムを統合し、CBT指向の自律型マルチカウンセラー・フレームワークを構築することで、その汎用的な適用可能性を実証します。実験結果は、AutoCBTがより高品質な自動心理カウンセリングサービスを提供できることを示しています。
Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.
論文リンク
https://arxiv.org/abs/2501.09426
さらに読む
https://x.com/omarsar0/status/1880283025595867631
空間で推論しながら想像する: 思考の可視化: マルチモーダル可視化 / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
論文紹介
AIモデルがテキストと画像の両方で「思考」できるようにする新たな推論フレームワークMVoT(マルチモーダルVisualization-of-Thought)を導入し、推論ステップの視覚表現をテキスト説明とともに生成できるようにすることで、従来のChain-of-Thoughtプロンプティングを強化します。このフレームワークは、マルチモーダル言語モデルであるChameleon-7B上で実装され、生成される可視化の品質を改善するために「token discrepancy loss」を導入しています。特に複雑なシナリオにおいて従来手法を大きく上回る性能を示し、迷路やプリンター設置タスクで90%以上の精度を達成するなど、MVoTは既存アプローチよりはるかに優れた性能を発揮します。
Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.
論文要旨(Abstract)
思考の連鎖(CoT)プロンプティングは、大規模言語モデル(LLM)およびマルチモーダル大規模言語モデル(MLLM)における複雑な推論を強化するうえで非常に効果的であることが示されています。しかし、複雑な空間推論タスクでは苦戦します。それでも、人間の認知は言語のみに限定されず、言葉と画像の両方で驚くべき思考能力を発揮します。こうしたメカニズムに着想を得て、新たな推論パラダイムであるマルチモーダル思考可視化(MVoT)を提案します。これは、推論の軌跡を画像として可視化することで、MLLMにおける視覚的思考を可能にします。高品質な可視化を保証するために、自動回帰型MLLMにトークン不一致損失を導入しました。この革新により、視覚的一貫性と忠実度が大幅に向上します。複数の動的空間推論タスクを通じて、このアプローチを検証しました。実験結果によれば、MVoTは複数のタスクで競争力のある性能を発揮しました。さらに、CoTが失敗する最も困難なシナリオにおいても、強力で安定した改善効果を示します。最終的に、MVoTは、視覚的思考が言語的推論を効果的に補完できる複雑な推論タスクに新たな可能性を示します。
Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.
論文リンク
https://arxiv.org/abs/2501.07542
さらに読む
https://x.com/omarsar0/status/1879181711982129420
ChemAgent: 大規模言語モデルにおける自己更新型ライブラリが化学推論を向上 / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning
論文紹介
動的に自己更新されるライブラリを通じて、化学推論におけるLLMの性能を改善するよう設計された新しいフレームワークを提示します。ライブラリは、化学タスクをサブタスクに分解し、将来のクエリで参照できる構造化コレクションとしてコンパイルすることで構築されます。システムに新しい問題が与えられると、ライブラリ内の関連情報を再試行・洗練して、より効果的なタスク分解を可能にします。さらに、新しいサブタスクと解法が見つかって検証されるたびに、ライブラリは動的に更新されます。SciBenchでの実験によれば、ChemAgentは既存手法を大きく上回り、最大46%(GPT-4)の性能向上を達成しました。
Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.
論文要旨(Abstract)
化学的推論は一般に、精密な計算を要する複雑な多段階プロセスを含み、わずかな誤りでも連鎖的な失敗につながる可能性があります。さらに、大規模言語モデル(LLM)は、化学推論タスクを扱う際に、分野固有の式を処理し、推論ステップを正確に実行し、コードを効果的に統合することに困難を抱えています。これらの課題に対処するため、Unityは、自己更新される動的ライブラリを通じてLLMの性能向上を図る新しいフレームワーク、ChemAgentを紹介しています。このライブラリは、化学タスクをサブタスクに分解し、それらのサブタスクを将来のクエリで参照できる構造化コレクションとしてコンパイルすることで構築されます。新たな問題が与えられると、ChemAgentはメモリと呼ぶライブラリから関連情報を検索して洗練し、効果的なタスク分解と解の生成を支援します。この手法では、3種類のメモリとライブラリ強化推論コンポーネントを設計することで、LLMが経験を通じて時間とともに向上できるようにしています。SciBenchの4つの化学推論データセットにおける実験結果によると、ChemAgentは最大46%(GPT-4)の性能向上を達成し、既存手法を大きく上回りました。これらの研究結果は、創薬や材料科学といったタスクを含む今後の応用に大きな可能性があることを示しています。詳しくは https://github.com/gersteinlab/chemagent をご覧ください。
Chemical reasoning usually involves complex, multi-step processes that demand precise calculations, where even minor errors can lead to cascading failures. Furthermore, large language models (LLMs) encounter difficulties handling domain-specific formulas, executing reasoning steps accurately, and integrating code effectively when tackling chemical reasoning tasks. To address these challenges, we present ChemAgent, a novel framework designed to improve the performance of LLMs through a dynamic, self-updating library. This library is developed by decomposing chemical tasks into sub-tasks and compiling these sub-tasks into a structured collection that can be referenced for future queries. Then, when presented with a new problem, ChemAgent retrieves and refines pertinent information from the library, which we call memory, facilitating effective task decomposition and the generation of solutions. Our method designs three types of memory and a library-enhanced reasoning component, enabling LLMs to improve over time through experience. Experimental results on four chemical reasoning datasets from SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods. Our findings suggest substantial potential for future applications, including tasks such as drug discovery and materials science. Our code can be found at https://github.com/gersteinlab/chemagent
論文リンク
https://arxiv.org/abs/2501.06590
さらに読む
https://github.com/gersteinlab/chemagent
https://x.com/omarsar0/status/1879188983705747754
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb
- この文章はGPTモデルでまとめたものであり、誤りが含まれている可能性があるため、記事下部の原文もあわせてご参照ください。お読みいただく中で不自然な点や誤った内容を見つけた場合は、コメントでお知らせいただけますと幸いです。* 🤗
⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか? 会員登録すると、主要な記事をメール💌でお届けします! (デフォルトはWeeklyですが、Dailyへの変更も可能です。)
まだコメントはありません。