1 ポイント 投稿者 ninebow 2024-03-06 | まだコメントはありません。 | WhatsAppで共有
  • DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳しました。

  • 今週選ばれた論文を見ると、大規模言語モデル(Large Language Models, LLMs)に焦点を当てた研究が主流を占めているようです。"Genie"、"Mistral Large"、"The Era of 1-bit LLMs"、"Dataset for LLMs"、"PlanGPT" などのタイトルから、言語モデリングと、それを改善したり新しいデータセットを活用したりするアプローチへの関心が高いことが分かります。これは、ここ数年で言語処理技術が急速に発展し、巨大な言語モデルがさまざまな自然言語処理タスクで優れた性能を発揮しているためかもしれません。

  • 言語モデル、特にGPT-4のような大規模モデルは、さまざまな産業や研究分野で応用されており、その結果、これらのモデルをより効率的に学習させ、より多様なデータに適用し、さらにはより少ないビット数でも高い性能を維持できる新技術の開発に対する要求が高まっています。また、"On the Societal Impact of Open Foundation Models" のようなタイトルは、言語モデルが社会に与える影響に関する研究が行われていることを示唆しており、技術の進歩だけでなく、それによって生じる社会的変化と責任に対する認識も高まっていることを意味します。

  • 一方で、"LearnAct" や "EMO" のように、やや具体性の低いタイトルも目を引きます。これらの論文は、言語モデルに限定されず、より広い応用や理論的発展に焦点を当てている可能性があります。全体として今週は、言語モデリングへの新しいアプローチと、それを活用した多様な応用研究が中心的なトレンドとして位置付けられていたことが確認でき、これはAI分野で重要視されているさまざまな課題に対する研究開発の熱気を反映した結果だと考えられます。


Genie: 生成型インタラクティブ環境 / Genie: Generative Interactive Environments

論文紹介

  • インターネット動画から学習され、画像プロンプトが与えられると動作制御可能な多様な2D世界を生成できるファウンデーションモデルであるGenieは、11B規模のパラメータを持ち、時空間ビデオトークナイザー、自動回帰動的モデル、拡張可能な潜在アクションモデルで構成されており、潜在アクション空間を通じて学習エージェントが未見の動画の動作を模倣できるため、より汎用的なエージェントを構築するうえで有望です。

    A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

論文要旨(Abstract)

  • ラベルのないインターネット動画から教師なしで学習された、初の生成型インタラクティブ環境であるGenieを紹介します。このモデルは、テキスト、合成画像、写真、さらにはスケッチによって記述された、無限に多様なアクション制御可能な仮想世界を生成するようプロンプトできます。11BパラメータのGenieは、基盤ワールドモデルと見なすことができます。時空間ビデオトークナイザー、自動回帰ダイナミクスモデル、そしてシンプルで拡張可能な潜在アクションモデルで構成されています。Genieを使うと、ワールドモデル研究で一般的に見られる実写ベースのアクションラベルや、その他のドメイン固有要件がなくても、フレーム単位で生成された環境内でフレームごとに行動できます。さらに、学習された潜在アクション空間によって、エージェントが未見の動画の動作を模倣する学習が可能になり、将来の汎用エージェントを学習する道を開きます。

    We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

論文リンク

https://arxiv.org/abs/2402.15391

さらに読む

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161


ミストラル・ラージ / Mistral Large

論文紹介

  • 強力な多言語、推論、数学、コード生成機能を備えた新しい言語エンジンの特徴は次のとおりです。1) 32kトークンのコンテキストウィンドウ、2) ネイティブな多言語機能、3) 推論、知識、数学、コーディングのベンチマークにおける高い能力、4) 関数呼び出しとJSON形式をネイティブサポート。

    A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

論文リンク

https://mistral.ai/news/mistral-large/

さらに読む

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721


1ビットLLMの時代: すべての大規模言語モデルは1.58ビットである / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

論文紹介

  • すべてのパラメータが三値 {-1, 0, 1} である、高性能かつコスト効率に優れた1ビットLLMの派生モデル「BitNet b1.58」を紹介します。同一のモデルサイズと学習トークン数という条件下で、BitNet b1.58はフル精度Transformer LLM(つまり fp16)の複雑性とタスク性能に匹敵し、この1ビットLLMの利点として、レイテンシ、メモリ、スループット、エネルギー消費が大幅に改善されます。
    > Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

論文要旨(Abstract)

  • BitNetのような最近の研究は、1ビット大規模言語モデル(LLM)の新時代への道を切り開いています。本稿では、LLMのすべての単一パラメータ(または重み)が三値 {-1, 0, 1} である1ビットLLMの派生モデル、すなわちBitNet b1.58を紹介します。これは、同じモデルサイズと学習トークン数を持つフル精度(つまり FP16 または BF16)のTransformer LLMと、複雑性および最終タスク性能の両面で一致しつつ、レイテンシ、メモリ、スループット、エネルギー消費の面ではるかに高いコスト効率を実現します。さらに深い意味では、1.58ビットLLMは、高性能かつコスト効率の高い次世代LLMを学習するための新たなスケーリング則とレシピを定義します。また、新しい計算パラダイムを可能にし、1ビットLLMに最適化された専用ハードウェアを設計する道を開きます。
    > Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

論文リンク

https://arxiv.org/abs/2402.17764

さらに読む

https://x.com/_akhaliq/status/1762729757454618720


大規模言語モデル向けデータセット:包括的サーベイ論文 / Datasets for Large Language Models: A Comprehensive Survey

論文紹介

  • 180ページを超える包括的な概要とLLMデータセットの分析。
    > A comprehensive overview (180+ pages) and analysis of llm datasets.

論文要旨(Abstract)

  • 本論文は、LLMの目覚ましい進歩に重要な役割を果たしてきた大規模言語モデル(LLM)データセットの探究に着手します。データセットは、LLMの発展を支え育む根系になぞらえられる基盤インフラとして機能します。そのため、これらのデータセットの調査は研究における重要なテーマとして浮上しています。LLMデータセットに関する包括的な概観と徹底的な分析が不足している現状に対処し、現在の状況と今後の動向についての洞察を得るために、本サーベイはLLMデータセットの基本的側面を、(1) 事前学習コーパス、(2) 指示チューニング用データセット、(3) 選好データセット、(4) 評価データセット、(5) 従来の自然言語処理(NLP)データセット、という5つの観点から統合・分類します。本サーベイは現在直面している課題に光を当て、今後の調査に向けた潜在的な方向性を提示します。さらに、8つの言語カテゴリと32のドメインにまたがる444件のデータセットの統計を含め、現在利用可能なデータセット資源に関する包括的なレビューも提供しています。データセット統計には20次元の情報が統合されています。調査対象となった総データ規模は、事前学習コーパスで774.5TB、その他のデータセットで7億インスタンスを超えました。私たちはLLMテキストデータセットの全体像を提示し、この分野の研究者にとって包括的な参考資料となり、今後の研究に貢献することを目指しています。関連リソースは https://github.com/lmmlzn/Awesome-LLMs-Datasets で確認できます。
    > This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

論文リンク

https://arxiv.org/abs/2402.18041

さらに読む

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001


アクション学習を通じた大規模言語モデルエージェントの能力強化 / Empowering Large Language Model Agents through Action Learning

論文紹介

  • Python関数を用いてアクションを生成・改善する反復学習戦略を通じて、言語エージェント向けのオープンアクション学習を探究し、提案フレームワーク(learnact)は各反復で実行フィードバックに基づいて利用可能なアクションを修正・更新することでアクション空間を拡張し、アクションの有効性を高め、ロボット計画およびALFWorld環境での学習の結果、ALFWorldにおいてReAct+Reflexionと比べてエージェント性能を32%向上させる効果を確認しました。
    > Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

論文要旨(Abstract)

  • 近年、大規模言語モデル(LLM)エージェントへの関心が高まっていますが、知的行動の中核要素である試行錯誤による学習能力には限界があります。本研究では、経験を通じて新たな行動を学習する能力が、LLMエージェントの学習を発展させるうえで不可欠であると主張します。人間は経験学習を通じて自然に行動空間を拡張し、スキルを発達させますが、LLMエージェントは通常、固定された行動空間内で動作するため、成長の可能性が制限されます。こうした課題を解決するため、本研究では言語エージェントのためのオープンアクション学習を探究します。Python関数の形でアクションを生成・改善する反復学習戦略を備えたフレームワーク LearnAct を紹介します。各反復において、LLM は失敗した学習タスクで確認された誤りに基づいて現在利用可能なアクションを修正・更新し、アクションの有効性を高めます。ロボティックプランニングおよび Alfworld 環境での実験評価によると、いくつかの学習タスクインスタンスで学習した後、このオープンアクション学習アプローチは、その種のタスクに対するエージェント性能を著しく向上させることが示されました(例:AlfWorld で ReAct+Reflexion と比較して 32%)。これは、より知的な LLM エージェントの開発において、経験的アクション学習の重要性を強調する結果です。
    > Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

論文リンク

https://arxiv.org/abs/2402.15809

さらに読む

https://x.com/omarsar0/status/1762533498492010761


EMO: Emote Portrait Alive - 弱い条件下で Audio2Video Diffusion Model を用いて表現力豊かなポートレート動画を生成する / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

論文紹介

  • Audio-to-Video ディフュージョンモデルを活用し、中間 3D モデルや顔ランドマークを必要としない Audio-to-Video 直接合成方式によって表現力豊かな動画を生成する新しいフレームワークである EMO は、表現力と写実性の面で既存手法を上回る性能を示しながら、多様なスタイルの説得力ある話者動画や歌唱動画を制作できます。
    > A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

論文要旨(Abstract)

  • 本研究では、音声手がかりと顔の動きの間にある動的で繊細な関係に着目し、トーキングヘッド動画生成における写実性と表現力を高めるという課題に取り組みます。Unity は、人間の表情の全スペクトルや個々の顔スタイルの固有性を捉えきれない従来技術の限界を指摘します。これらの問題を解決するため、Unity は中間 3D モデルや顔ランドマークを必要としない直接的な音声-動画合成方式を利用する新しいフレームワーク EMO を提案します。この方式は、動画全体にわたる滑らかなフレーム遷移と一貫したアイデンティティ保持を保証し、表現力が高く生き生きとしたアニメーションを実現します。実験結果によれば、EMO は説得力ある会話動画だけでなく、多様なスタイルの歌唱動画も生成でき、表現力と写実性の面で既存の最先端手法を大きく上回ることが示されました。
    > In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

論文リンク

https://arxiv.org/abs/2402.17485

さらに読む

https://x.com/_akhaliq/status/1762686465777999932


オープン基盤モデルの社会的影響 / On the Societal Impact of Open Foundation Models

論文紹介

  • オープン基盤モデルとその影響、利点、リスクに焦点を当てたポジションペーパーで、リスク分析のためのリスク評価フレームワークを提案し、一部のケースでオープン基盤モデルの限界リスクが低い理由を説明するとともに、オープン基盤モデルの社会的影響について、より根拠に基づいた評価を提示します。
    > A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

論文リンク

https://crfm.stanford.edu/open-fms/

さらに読む

https://x.com/sayashk/status/1762508812370551207


StarCoder 2 / StarCoder 2

論文紹介

  • 3つのサイズ(3b、7b、15b)からなるコード向けのオープン機械学習モデル群で、15bモデルは14兆トークンと600以上のプログラミング言語で学習され、16kトークンのコンテキストウィンドウとfill-in-the-middle目的を用いることで、コード補完、コード推論、PALを通じた数学推論など多くの評価で33b以上のモデルに匹敵します。
    > A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

論文リンク

https://huggingface.co/blog/starcoder2

さらに読む

https://x.com/_philschmid/status/1762843489220296881


表形式データにおける大規模言語モデル(LLM): 予測、生成、理解 - サーベイ論文 / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

論文紹介

  • 主要技術、指標、データセット、モデル、最適化アプローチを含む、表形式データタスク向けLLMの概要を示し、今後の研究方向に関する洞察とともに、限界や未開拓のアイデアを扱います。
    > An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

論文要旨(Abstract)

  • 近年の大規模言語モデリングにおける画期的な進展により、予測、表形式データ合成、質問応答、表理解など、表形式データモデリングに関連する多様なタスクへの適用が本格的に探究されるようになりました。各タスクには固有の課題と機会があります。しかし現在、この研究分野における主要な技術、指標、データセット、モデル、最適化アプローチを要約・比較する包括的なレビューが不足しています。本サーベイは、これらの分野における最近の進展を統合し、利用されているデータセット、指標、方法論について徹底的な調査と分類を提供することで、このギャップを埋めることを目的としています。既存文献の強み、限界、未開拓領域、ギャップを特定すると同時に、この重要かつ急速に進化する分野の今後の研究方向についていくつかの洞察を提供します。また、関連するコードとデータセットの参照も提供します。この包括的なレビューを通じて、関心のある読者に適切な参考資料と示唆に富む視点を提供し、この分野における現在の課題を効果的に把握し対処するために必要なツールと知識を得られるようにしたいと考えています。
    > Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

論文リンク

https://arxiv.org/abs/2402.17944

さらに読む

https://x.com/omarsar0/status/1763187964501254492


PlanGPT: 特化型言語モデルと効率的な検索による都市計画の改善 / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

論文紹介

  • 検索拡張、ファインチューニング、ツール利用など、複数のアプローチをLLMで活用し組み合わせる方法を示しています。提案されたフレームワークは都市計画および空間計画に適用されていますが、他分野にも応用可能な多くの洞察と実践的なヒントがあります。
    > Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

論文要旨(Abstract)

  • 都市計画分野では、汎用の大規模言語モデルはプランナーの具体的な要求を満たすのに苦労することが少なくありません。都市計画テキストの生成、関連情報の検索、計画文書の評価といったタスクには、それぞれ特有の課題があります。都市分野の専門家の効率を高め、こうした障壁を克服するために、都市・空間計画向けに特化した初の専門大規模言語モデルであるPlanGPTを紹介します。中国都市計画学会のような機関との協力を通じて開発されたPlanGPTは、カスタマイズされたローカルデータベース検索フレームワーク、ドメイン特化のベースモデル微調整、高度なツール機能を活用しています。実証テストによれば、PlanGPTは都市計画の複雑さに正確に対応した高品質な応答を提供し、優れた性能を達成しました。
    > In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

論文リンク

https://arxiv.org/abs/2402.19273

さらに読む

https://x.com/omarsar0/status/1763424166890377691


原文

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-983


この記事はGPTモデルで要約したものであり、誤った部分がある可能性があるため、記事下部の原文もあわせてご参照ください。お読みいただく中で不自然な点や誤りを見つけた場合は、コメントでお知らせいただけますと幸いです。

⚠️広告⚠️: PyTorch Koreaユーザーコミュニティがまとめたこの記事は役に立ちましたか? 会員登録していただくと、主要な記事をメールでお送りします! (デフォルトはWeeklyですが、Dailyへの変更も可能です。)

まだコメントはありません。

まだコメントはありません。