[2024/01/22 ~ 01/28] 今週の主要ML論文 (Top ML Papers of the Week)
(discuss.pytorch.kr)概要
-
DAIR.AIで毎週公開されるML論文に関する記事を自動翻訳しました。
-
今週選ばれた論文を見ると、大規模言語モデル(Large Language Models, LLMs)とマルチモーダルモデル(Multimodal Models)、そしてビジュアル言語モデル(Visual Language Models)といった領域への関心が際立っていることが分かります。"Knowledge Fusion of LLMs"、"Resource-efficient LLMs & Multimodal Models"、そして"Red Teaming Visual Language Models"のような論文は、こうした主要トレンドを反映しており、大規模モデルとその効率性、マルチモーダル学習、および視覚データ処理能力の向上に関する研究開発を示しています。
-
こうした傾向は、近年の人工知能技術、特に自然言語処理(Natural Language Processing, NLP)とコンピュータビジョン(Computer Vision)の分野で、複合的なデータを理解し処理する能力の重要性が高まっていることを背景に現れています。大規模言語モデルは多様な言語理解タスクで高い性能を示しており、マルチモーダルモデルはさまざまな種類のデータ(テキスト、画像、音声など)を組み合わせて人間のような理解を目指す研究において不可欠な要素として定着しています。また、ビジュアル言語モデルは画像や視覚コンテンツへの言語的アクセスを可能にし、より豊かでインタラクティブなAIシステムの構築に重要な役割を果たしています。
-
このようにタイトルと紹介から把握できる傾向は、高度化したAIモデルの性能向上だけでなく、生産性と効率性の新たな基準を打ち立てることを目指した研究が増えていることを示唆しています。大規模モデルの資源効率の改善を扱う論文は、エネルギー消費と計算コストの面で持続可能なAIの発展を追求する現在の研究潮流を反映しています。これはまた、人工知能が実際の産業や社会的応用でより広く採用されるために、必ず解決しなければならない問題に取り組む学術界と産業界の努力を強調するものでもあります。
何でも深度解析: ラベルなし大規模データの力を解き放つ / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
論文紹介
- どのような状況でもあらゆる画像を処理できる強力な単眼深度推定ソリューションであり、ラベルなしの大規模データ(最大6,200万件)に自動でアノテーションを付与して一般化誤差を減らし、大規模なラベルなしデータの力を活用する効果的な戦略を提案しています。さらに、一般化能力に加えて、ファインチューニングによって新たな最先端技術を確立し、深度条件付きControlNetの性能向上まで実現しました。
A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.
論文要旨(Abstract)
- 本研究では、堅牢な単眼深度推定のための非常に実用的なソリューションであるDepth Anythingを紹介します。新規の技術モジュールを追求するのではなく、どのような状況でもあらゆる画像を扱える、シンプルでありながら強力なファウンデーションモデルの構築を目指しています。そのために、ラベルなしの大規模データ(約6,200万件)を収集し、自動でアノテーションを付与できるデータエンジンを設計してデータセットをスケールアップし、データカバレッジを大幅に拡大することで一般化誤差を低減します。データのスケールアップを有望にする、シンプルながら効果的な2つの戦略も検討します。第一に、データ拡張ツールを活用して、より挑戦的な最適化目標を作成します。これにより、モデルは追加の視覚的知識を積極的に探し、堅牢な表現を獲得するよう促されます。第二に、事前学習済みエンコーダから豊かなセマンティック事前知識を継承するようモデルに促す補助的な教師信号を開発します。6つの公開データセットとランダムに撮影した写真を含め、ゼロショット能力を広範に評価しました。その結果、印象的な一般化能力が示されました。さらに、NYUv2とKITTIのメトリック深度情報でファインチューニングすることで、新たなSOTAを達成しています。より優れた深度モデルは、より優れた深度条件付きControlNetにもつながります。詳細は https://github.com/LiheYoung/Depth-Anything で確認できます。
This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
論文リンク
https://arxiv.org/abs/2401.10891v1
さらに読む
https://x.com/_akhaliq/status/1749284669936275463
大規模言語モデルの知識融合 / Knowledge Fusion of Large Language Models
論文紹介
- 複数の学習組織の知識を外部化し、その能力を対象の学習組織へ移転することを中核アイデアとするFuseLLMを提案し、ソース学習組織の生成分布を活用して集団的知識と個々の強みの両方を外部化し、継続学習を通じて対象の学習組織へ移転することで、FuseLLMが推論、常識、コード生成など多様な機能にわたって対象モデルの性能を向上できることを示します。
> Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.
論文要旨(Abstract)
- 大規模言語モデル(LLM)をゼロから学習すると、固有の機能や強みを持つモデルを生み出せる一方で、莫大なコストがかかり、機能の重複が生じる可能性があります。あるいは、すでに学習済みの既存LLMを、より強力なモデルへ統合することも、コスト効率が高く魅力的なアプローチです。しかし、これらのLLMはアーキテクチャが多様であるため、重みを直接混合するのは現実的ではありません。本論文では、既存LLMの能力を組み合わせて単一のLLMへ統合することを目的とした、LLMのための知識融合という概念を紹介します。ソースLLMの生成分布を活用して、それらの集団的知識と固有の強みを外部化することで、個々のソースLLMの能力を潜在的に上回る対象モデルの能力向上を実現します。著者らは、異なるアーキテクチャを持つ3つの人気LLMであるLlama-2、MPT、OpenLLaMAを用い、さまざまなベンチマークとタスクでこのアプローチを検証しています。その結果、LLMの融合によって、推論、常識、コード生成など幅広い能力において対象モデルの性能を向上できることを確認しました。コード、モデル重み、データは \url{https://github.com/fanqiwan/FuseLLM} で公開されています。
> While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.
論文リンク
https://arxiv.org/abs/2401.10491
さらに読む
https://github.com/fanqiwan/FuseLLM
https://x.com/omarsar0/status/1749267663900057620
マンババイト: トークン不要の選択的状態空間モデル / MambaByte: Token-free Selective State Space Model
論文紹介
- 生のバイト列から直接学習するようにMamba SSMを適応させます。バイト列は、自己回帰型Transformerではうまくスケールしない長いシーケンスにつながります。本研究は、より高速な推論に関する大きな利点を報告しており、さらにはサブワードTransformerを上回る性能も示しています。
> Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.
論文要旨(Abstract)
- トークン不要の言語モデルは、生のバイト列から直接学習し、サブワードトークナイゼーションのバイアスを取り除きます。しかし、バイト単位で扱うとシーケンスは大幅に長くなり、標準的な自己回帰Transformerはこの設定ではうまくスケールしません。著者らは、バイト列に対して自己回帰的に学習されたMamba状態空間モデルをトークン不要に適応したMambaByteを実験しました。実験の結果、他のバイトレベルモデルと比べてMambaByteの計算効率が非常に高いことが示されました。また、MambaByteは最先端のサブワードTransformerと競合可能であり、場合によってはそれを上回る性能を示すことも確認されました。さらに、長さに対して線形にスケールするため、MambaByteはTransformerと比べて高速推論の利点を持ちます。今回の研究結果は、トークン不要の言語モデリングを実現するうえでのMambaByteの実用可能性を示しています。
> Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.
論文リンク
https://arxiv.org/abs/2401.13660
さらに読む
https://x.com/omarsar0/status/1750366964759859633
Diffuse to Choose: バーチャル試着のための潜在拡散モデルにおける画像条件付きインペインティングの強化 / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
論文紹介
- 拡散ベースの画像条件付きインペインティングモデルで、与えられたシーン内容において正確な意味的操作を可能にしつつ、高速な推論と高忠実度のバランスを取り、既存のゼロショット拡散インペインティング手法、さらには DreamPaint のような少数ショットの拡散パーソナライゼーションアルゴリズムをも上回る性能を示します。
> A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.
論文要約(Abstract)
- オンラインショッピングの成長に伴い、購入者が自分の環境で製品を仮想的に可視化できる機能、すなわち「Virtual Try-All」の重要性が高まっています。近年の拡散モデルは本質的にワールドモデルを内包しており、インペインティングの文脈においてこの課題に適しています。しかし、従来の画像条件付き拡散モデルでは、製品の細かなディテールを捉えきれないことが多くあります。一方、DreamPaint のようなパーソナライゼーション重視のモデルは商品のディテール保持に優れていますが、リアルタイムアプリケーション向けには最適化されていません。Unity は、与えられたシーン内容で正確な意味的操作を保証しながら、与えられた参照アイテムの高忠実度なディテール保持と高速推論のバランスを効率的に取る、新しい拡散ベースの画像条件付きインペインティングモデル「Diffuse to Choose」を紹介します。Unity のアプローチは、参照画像の細粒度特徴をメインの拡散モデルの潜在特徴マップへ直接統合し、さらに参照アイテムのディテールをより保つために知覚損失を適用することに基づいています。Unity は社内データセットおよび公開データセットの両方で広範なテストを実施し、その結果、Diffuse to Choose が既存のゼロショット拡散インペインティング手法だけでなく、DreamPaint のような少数ショット拡散パーソナライゼーションアルゴリズムよりも優れていることを示しました。
> As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
論文リンク
https://arxiv.org/abs/2401.13795
さらに読む
https://x.com/_akhaliq/status/1750737690553692570
WARM: 重み平均報酬モデルの利点について / WARM: On the Benefits of Weight Averaged Reward Models
論文紹介
- 複数の報酬モデルを微調整した後、重み空間で平均化する重み平均報酬モデル(WARM)を導入し、従来の予測アンサンブルと比べて効率を改善するとともに、LLM 予測の品質とアライメントを向上させます。
> Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.
論文要約(Abstract)
- 強化学習(RLHF)を通じて大規模言語モデル(LLM)を人間の選好に合わせることは、報酬ハッキングにつながる可能性があります。これは、LLMが報酬モデル(RM)の欠陥を悪用し、本来の目的を達成せずに見かけ上高い報酬を得る現象です。Unityは、報酬ハッキングを緩和するためにRMを設計する際の主要な課題として、RLプロセス中の分布シフトと人間の選好の不一致という2点を指摘しています。この解決策として、まず複数のRMをファインチューニングし、その後で重み空間で平均を取る Weight Averaged Reward Models(WARM)を提案しています。この戦略は、同じ事前学習を共有している場合、ファインチューニングされた重みが線形にモード接続された状態を保つという観察に基づいています。重みを平均化することで、WARMは従来の予測アンサンブルと比べて効率を改善すると同時に、分布シフト下での信頼性と選好の不一致に対する頑健性も向上させます。best-of-N および RL 手法を用いた要約タスクでの実験の結果、WARMはLLM予測の全体的な品質とアラインメントを改善することが示されました。たとえば、WARMでファインチューニングした policy RL は、単一のRMでファインチューニングした policy RL に対して79.4%の勝率を示しました。
> Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.
論文リンク
https://arxiv.org/abs/2401.12187
さらに読む
https://x.com/ramealexandre/status/1749719471806157304
リソース効率的なLLMおよびマルチモーダル基盤モデルに関するサーベイ / A Survey of Resource-efficient LLM and Multimodal Foundation Models
論文紹介
- リソース効率的なMLおよびマルチモーダル基盤モデルに関するサーベイで、アーキテクチャ、アルゴリズム、実システムの設計と実装を含む、ML効率性研究について包括的な分析とインサイトを提供します。
> A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.
論文要旨(Abstract)
- 大規模言語モデル(LLM)、Vision Transformer(ViT)、拡散モデル、そしてLLMベースのマルチモーダルモデルを含む大規模基盤モデルは、学習からデプロイまで、機械学習ライフサイクル全体に変革をもたらしています。しかし、これらのモデルがもたらす汎用性と性能の大幅な向上には、ハードウェアリソースの面で大きなコストが伴います。こうした大規模モデルの成長を、スケーラブルかつ環境的に持続可能な形で支えるため、リソース効率の高い戦略の開発に大きな関心が集まっています。本サーベイは、アルゴリズムとシステムの両面からこの研究の重要性を掘り下げています。最先端のモデルアーキテクチャや学習・サービングアルゴリズムから、実践的なシステム設計と実装に至るまで、既存文献から得られた包括的な分析と有益なインサイトを幅広く提供します。このサーベイの目的は、大規模基盤モデルがもたらすリソース上の課題に対して、現在のアプローチがどのように取り組んでいるのかを俯瞰的に理解できるようにし、この分野における今後のブレークスルーを促すことにあります。
> Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.
論文リンク
https://arxiv.org/abs/2401.08092v1
さらに読む
https://x.com/omarsar0/status/1749208653926654010
ビジュアル言語モデルのレッドチーミング / Red Teaming Visual Language Models
論文紹介
- まず、10個のサブタスク(例: 画像ミスリード、マルチモーダル脱獄、顔の公平性など)で構成されるレッドチーミング用データセットを提示し、10個の著名なオープンソースVLM(Vision-Language Models)がレッドチーミングにさまざまな程度で苦戦しており、gpt-4vとの性能差が最大31%あることを発見しました。さらに、提案したレッドチーミング用データセットを用いて、SFT(Supervised Fine-tuning)とともにllava-v1.5へレッドチーミング整列を適用し、テストセットでモデル性能を10%向上させました。
> First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.
論文概要(Abstract)
- VLM(ビジョン・ランゲージ・モデル)は、LLM(大規模言語モデル)の能力を拡張し、マルチモーダル入力を受け付けます。特定のテストケース(レッドチーミングと呼ばれる)を通じて、LLMが有害または不正確なコンテンツを生成するよう誘導できることは確認されていますが、特にテキストと視覚入力が組み合わさった場合に、VLMが類似のシナリオでどのように振る舞うかは依然として疑問として残っています。この問題を探るため、4つの主要観点(忠実性、プライバシー、安全性、公平性)の下で、10個のサブタスク(例: 画像ミスリード、マルチモーダル脱獄、顔の公平性など)を含む新しいレッドチーミング用データセットRTVLMを提示します。CriteoのRTVLMは、これら4つの観点から現行のVLMをベンチマークする初のレッドチーミング用データセットです。詳細な分析の結果、10個の著名なオープンソースVLMがレッドチーミングでさまざまな程度に苦戦しており、GPT-4Vとの性能差が最大31%あることが分かりました。また、RTVLMを用いた教師ありファインチューニング(SFT)により、LLaVA-v1.5にレッドチーミング整列を簡単に適用したところ、RTVLMテストセットで10%、MM-Halで13%性能が向上し、MM-Benchでは目立った性能低下なしに、通常の整列データを用いた他のLLaVAベースモデルを上回りました。これは、現在のオープンソースVLMには依然としてレッドチーミング整列が不足していることを示しています。コードとデータセットはオープンソースとして公開予定です。
> VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.
論文リンク
https://arxiv.org/abs/2401.12915
さらに読む
https://x.com/omarsar0/status/1750170361843384790
Lumiere: 動画生成のための時空間拡散モデル / Lumiere: A Space-Time Diffusion Model for Video Generation
論文紹介
- 現実的で一貫した動きを持つ動画を合成するためのテキストから動画への時空間拡散モデルであり、単一パスで動画の全時間長を一度に生成する時空間U-Netアーキテクチャを導入し、最先端のテキスト動画生成結果を達成するとともに、image-to-video、動画インペインティング、スタイル化生成など、多様なコンテンツ制作タスクおよび動画編集アプリケーションをサポートします。
> A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
論文概要(Abstract)
- 動画合成における中核的課題である、写実的で多様かつ一貫した動きを表現する動画を生成するために設計されたテキスト・トゥ・ビデオ拡散モデル、Lumiereを紹介します。このためにGoogleは、モデルの単一パスを通じて動画の時間的な全長を一度に生成する時空間U-Netアーキテクチャを導入しました。これは、離れたキーフレームを合成した後に時間的超解像を行う既存の動画モデルとは対照的であり、そのような手法は本質的に全体的な時間的一貫性の確保が難しいアプローチです。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方を導入し、事前学習済みのテキスト・トゥ・イメージ拡散モデルを活用することで、このモデルは複数の時空間スケールで処理しながら、フルフレームレートの低解像度動画を直接生成する方法を学習します。最先端のテキスト・トゥ・ビデオ生成結果を実証し、image-to-video、動画インペインティング、スタイル化生成など、幅広いコンテンツ制作タスクや動画編集アプリケーションを容易に支援できる設計を示しています。
> We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
論文リンク
https://arxiv.org/abs/2401.12945
さらに読む
https://discuss.pytorch.kr/t/lumiere-google/3357
https://x.com/GoogleAI/status/1751003814931689487
Medusa: 複数のデコーディングヘッドを備えたシンプルなLLM推論高速化フレームワーク / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
論文紹介
- 複数の後続トークンを並列に予測する複数のデコーディングヘッドを用いた、LLM推論高速化のためのシンプルなフレームワークであり、並列化によってデコーディングステップ数を大幅に削減し、生成品質を損なうことなく2.2倍以上の高速化を達成でき、Medusa-2では速度向上がさらに2.3〜3.6倍へと改善されました。
> A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.
論文要旨(Abstract)
- 大規模言語モデル(LLM)の推論プロセスは、自動回帰デコーディングプロセスに並列処理機能がないため、多くの場合、ほとんどの演算がアクセラレータのメモリ帯域幅によって制限されます。この問題を解決するために speculative decoding のような手法が提案されてきましたが、別個のドラフトモデルを確保・維持しなければならないという問題のため、実装は困難でした。本論文では、複数の後続トークンを並列に予測するための追加のデコーディングヘッドを加えることで LLM 推論を強化する効率的な手法である Medusa を紹介します。Medusa はツリーベースのアテンション機構を用いて複数の候補継続を構築し、各デコーディングステップでそれらを同時に検証します。並列処理を活用することで、Medusa は単一ステップのレイテンシの観点では最小限のオーバーヘッドしか発生させず、必要なデコーディングステップ数を大幅に削減します。 さまざまなユースケースの要件を満たすために、Medusa には 2 つのレベルのファインチューニング手順があります。Medusa-1:Medusa は凍結されたバックボーン LLM の上で直接ファインチューニングされ、損失のない推論高速化を可能にします。Medusa-2:Medusa はバックボーン LLM とともにファインチューニングされ、Medusa ヘッドの予測精度向上と高速化が可能になりますが、バックボーンモデルの能力を保持する特別な学習レシピが必要です。 さらに、学習データがない状況に対応するための自己蒸留や、生成品質を維持しながら受理率を高める一般的な受理スキームなど、Medusa の有用性を改善・拡張するいくつかの拡張も提案します。さまざまなサイズと学習手順のモデルに対して Medusa を評価した結果、Medusa-1 は生成品質を損なうことなく 2.2 倍以上の高速化を達成でき、Medusa-2 はその高速化をさらに 2.3〜3.6 倍へ高められることを実証しました。
> The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.
論文リンク
https://arxiv.org/abs/2401.10774v1
さらに読む
https://discuss.pytorch.kr/t/…
https://x.com/jiayq/status/1749461664393810350
AgentBoard: マルチターン LLM エージェントの分析的評価ボード / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
論文紹介
- オープンソースの評価フレームワークを含む包括的なベンチマークを通じて分析的評価を行うことで、LM エージェントの機能と限界を評価し、エージェントの振る舞いを明らかにして、より強力で堅牢な LM エージェントの構築につなげることができます。
> A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.
論文抄録(Abstract)
- 汎用エージェントとして大規模言語モデル(LLM)を評価することは、その能力を理解し、実用的なアプリケーションへ容易に統合するために不可欠です。しかし、評価プロセスには大きな困難が伴います。特に、部分観測可能な環境を維持し、多面的な相互作用を保証しながら、統一フレームワーク内で多様なシナリオにわたるエージェント性能をベンチマークすることが最大の障害です。さらに、現在の評価フレームワークの多くは最終的な成功率に焦点を当てているため、プロセス中の洞察がほとんど得られず、モデル能力に対する深い理解を提供できていません。こうした課題に対処するため、UnityはLLMエージェントの分析的評価に特化した先駆的な包括的ベンチマークであり、オープンソースの評価フレームワークでもあるAgentBoardを導入しました。AgentBoardは、段階的な進展を捉える粒度の高い進捗率メトリクスと、インタラクティブな可視化を通じて多面的な分析のためにエージェントを容易に評価できる包括的な評価ツールキットを提供します。これにより、LLMエージェントの能力と限界を明確に把握できるだけでなく、エージェントの成果に対する解釈可能性も高められます。最終的に、AgentBoardはエージェントの振る舞いを理解し、より強力なLLMエージェントの開発を加速するうえで重要な役割を果たします。
> Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
論文リンク
https://arxiv.org/abs/2401.13178v1
さらに読む
https://x.com/ma_chang_nlp/status/1750369056539218082
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8
⚠️広告⚠️: PyTorch韓国ユーザーコミュニティがまとめたこの記事は役に立ちましたか? 会員登録すると主要な記事をメールでお届けします! (基本はWeeklyですが、Dailyへの変更も可能です。)
まだコメントはありません。