[2024/05/13 ~ 05/19] 今週の主要ML論文(Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AIが毎週公開しているML論文の紹介記事を自動翻訳しました。
-
今週投稿された論文から観察できる主な傾向として、自然言語処理(NLP)と強化学習(RL)に焦点を当てた研究が多く含まれていることが挙げられます。たとえば、"GPT-4o"、"Fine-tuning and Hallucinations"、そして"Zero-shot Tokenizer Transfer"は、自然言語処理に関連する最新技術と方法論を扱っており、特に生成モデルやトークナイザーの転移学習といった分野での進展を探っています。このほか、"RLHF Workflow"では、強化学習を活用した効率的な学習プロセス設計に関する研究が示されており、これはRL分野の実用的な応用可能性を広げようとする試みと見ることができます。
-
こうした傾向は、人工知能技術、特に機械学習および深層学習の発展において、自然言語処理と強化学習の重要性がますます高まっていることを反映しています。近年、GPTのような言語生成モデルが爆発的に成長したことで、その応用範囲は拡大し続けており、研究者の間でも、これらのモデルをさらに精緻にチューニングし、既存モデルの弱点を補うための研究に大きな関心が集まっています。また、強化学習は意思決定プロセスを最適化し、複雑な環境における学習能力を向上させる重要な手法として定着しており、これは学習効率を最大化しようとする現在の研究動向とも軌を一にしています。
-
したがって、今週投稿された論文は、学術界と産業界における研究開発の取り組みがどの方向へ進んでいるのかをよく示しています。自然言語処理は、人間と機械の相互作用をより自然かつ効率的にするための技術の中核であり、強化学習は、こうした相互作用に基づく意思決定プロセスを最適化するうえで重要な役割を果たします。これらの研究動向は、今後も進化し続ける人工知能技術の将来の方向性を示す重要な指標となるでしょう。
GPT-4o
紹介
音声、視覚、テキストをリアルタイムで扱えるマルチモーダル推論機能を備えた新しいモデルで、テキスト、音声、画像、動画のあらゆる組み合わせを入力として受け取り、テキスト、音声、画像出力の組み合わせを生成できます。API経由では、GPT-4 Turboと同等の性能を維持しながら、50%も高速かつ低コストであると報告されています。
A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.
関連リンク
https://openai.com/index/hello-gpt-4o/
さらに読む
https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362
https://x.com/OpenAI/status/1790072174117613963
Gemini 1.5 Flash
論文紹介
マルチモーダル機能を備えた2Mコンテキストウィンドウを持つ軽量トランスフォーマーデコーダーモデルで、効率性を重視して設計されており、複数の評価対象言語において、全モデル中で最も高速な出力生成を実現します。全体として、Gemini 1.5 FlashはGemini 1.0 Proと比べて一貫して優れた性能を示し、複数のベンチマークでは1.0 Ultraに近い水準の性能を見せました。
A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.
論文要旨(Abstract)
このレポートでは、複数の長文書や数時間分の動画・音声を含む数百万のコンテキストトークンから、細粒度な情報を記憶し推論できる、計算効率に優れた次世代マルチモーダルモデルを代表する Gemini 1.5 モデルファミリーを紹介します。このファミリーには、(1) 能力とベンチマークの大半で2月版を上回る更新版 Gemini 1.5 Pro と、(2) 品質低下を最小限に抑えつつ効率性を重視して設計された、より軽量なバージョンである Gemini 1.5 Flash の2つの新モデルが含まれます。Gemini 1.5 モデルは、複数モダリティにまたがる長文脈検索タスクでほぼ完全な再現率を達成し、長文書QA、長尺動画QA、長文脈ASRで最先端性能を更新し、幅広いベンチマークで Gemini 1.0 Ultra の最先端性能に匹敵するか、それを上回ります。Gemini 1.5 の長文脈能力の限界を調査した結果、次トークン予測とほぼ完全な検索(99%以上)は少なくとも1,000万トークンまで継続的に改善しており、Claude 3.0(200万)や GPT-4 Turbo(128万)のような既存モデルを1世代以上上回る飛躍であることが示されました。最後に、10種類の職種で26〜75%の時間削減を達成した、Gemini 1.5 と専門職の協働による業務完了のような実利用例や、世界で話者が200人未満の言語であるカラマン語の文法マニュアルを与えると、同じ内容で学習した人間と同程度の水準で英語をカラマン語に翻訳するという、注目すべき新たな能力についても取り上げます。
In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.
論文リンク
https://storage.googleapis.com/deepmind-media/gemini/…
さらに読む
https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371
https://x.com/OriolVinyalsML/status/1791521517211107515
Veo
紹介
Google DeepMind の最も高性能な動画生成モデルは、1分を超える高品質な1080p解像度の動画を生成し、動画に対するマスク編集をサポートし、テキストとともに入力された画像から動画を生成することもでき、潜在拡散トランスフォーマーによって一貫性を保ちながら動画クリップを60秒以上に拡張することもできます。
Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.
関連リンク
https://deepmind.google/technologies/veo/
さらに読む
https://discuss.pytorch.kr/t/veo-google-deepmind/4385
https://x.com/GoogleDeepMind/status/1790435824598716704
カメレオン:混合モーダル早期融合ファウンデーションモデル / Chameleon: Mixed-Modal Early-Fusion Foundation Models
論文紹介
任意の順序で画像とテキストを生成するためのトークンベース混合モーダルモデル群で、画像キャプションにおいて最先端性能を報告し、テキスト専用タスクでは Llama 2 を上回り、Mixtral 8x7B や Gemini-Pro とも競合し、新たな長文混合モーダル生成評価では Gemini Pro および GPT-4V の性能を上回ります。
A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.
論文要旨(Abstract)
任意のシーケンスで画像とテキストを理解・生成できる、初期融合トークンベースの混合モーダルモデル群である Chameleon を紹介します。初期段階からの安定した学習アプローチ、アラインメントのレシピ、初期融合トークンベースの混合モーダル設定に合わせたアーキテクチャのパラメータ化について説明します。視覚的質問応答、画像キャプション、テキスト生成、画像生成、長文の混合モーダル生成など、包括的な範囲のタスクでモデルを評価しています。Chameleon は画像キャプションタスクで最先端性能を示すなど、幅広く汎用的な能力を発揮し、テキストのみのタスクでは Llama-2 を上回る一方で、Mixtral 8x7B や Gemini-Pro のようなモデルと競合し、単一モデルで非自明な画像生成も実行します。さらに、プロンプトまたは出力に画像とテキストが混在したシーケンスを含む新しい長文混合モーダル生成評価において、人手評価の結果では Gemini Pro や GPT-4V を含むはるかに大規模なモデルに匹敵する、あるいはそれを上回る性能を示しています。Chameleon は、完全なマルチモーダル文書の統合モデリングにおける重要な前進を示しています。
We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.
論文リンク
https://arxiv.org/abs/2405.09818
さらに読む
https://x.com/AIatMeta/status/1791263344714014733
新しい知識について LLM をファインチューニングすると幻覚は助長されるのか? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?
論文紹介
新しい知識に対するファインチューニングが学習モデルの幻覚傾向に与える影響を研究し、新しい知識を含むファインチューニング例を設定することで、学習モデルがファインチューニングによって新しい事実知識を獲得することに苦労することを示し、新しい知識を学習するほどモデルの幻覚傾向が増加することを明らかにします。
Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.
論文要旨(Abstract)
大規模言語モデルが教師ありファインチューニングによってアラインされると、事前学習では獲得されていなかった新しい事実情報に触れる可能性があります。この場合、モデルは既存の知識に根拠を持たない事実を生成するよう訓練されるため、事実と異なる応答を幻覚する振る舞いを学習してしまうのではないかとしばしば推測されます。本研究では、このような新しい知識への曝露が、ファインチューニングされたモデルの既存知識を活用する能力に与える影響を調べます。そのために、新しい知識を導入するファインチューニング例の比率を変化させる、クローズドブック QA に焦点を当てた制御設定を設計します。新しい知識を導入するファインチューニング例は、モデルの知識と整合する例よりも著しく遅く学習されるため、大規模言語モデルがファインチューニングを通じて新しい事実知識を獲得することに苦労することを実証しました。しかし同時に、新しい知識を含む例が最終的に学習されるにつれて、モデルの幻覚傾向が線形に増加することも見いだしました。これらの結果を総合すると、ファインチューニングを通じて新しい事実知識を導入することのリスクが強調され、大規模言語モデルは主として事前学習を通じて事実知識を獲得し、ファインチューニングはそれをより効率的に使うことを教えるという見方を支持しています。
When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model’s tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.
論文リンク
https://arxiv.org/abs/2405.05904
さらに読む
https://x.com/arankomatsuzaki/status/1788859706187882960
ゼロショット・トークナイザー転移 / Zero-Shot Tokenizer Transfer
論文紹介
トークナイザーを入力として受け取り、対応する埋め込みを予測するハイパーネットワークを学習し、エンコーダおよびデコーダLLMの両方で新しいトークナイザーへの汎化を実証し、この手法が多言語およびコーディングのタスクで元のモデルの性能に近い性能を達成しつつ、トークン化された系列長を短縮すると報告しています。
Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.
論文要旨(Abstract)
言語モデル(LM)は、生テキストを語彙項目(トークン)の列に写像するトークナイザーに結び付けられています。たとえば、主に英語で学習されたLMは、他の自然言語やプログラミング言語でもなお高い性能を発揮する可能性がありますが、英語中心のトークナイザーのために効率が大幅に低下することがあります。これを緩和するには、性能を低下させることなく、元のLMトークナイザーを任意のトークナイザーにその場で置き換えられる必要があります。そこで本研究では、新たな問題としてゼロショット・トークナイザー転移(ZeTT)を定義します。ZeTTの中核となる課題は、新しいトークナイザーの語彙内にあるトークンの埋め込みを見つけることです。埋め込み初期化のための従来のヒューリスティクスは、ZeTT設定ではしばしば偶然レベルの性能しか示さないため、私たちはトークナイザーを入力として受け取り、対応する埋め込みを予測するハイパーネットワークを学習する新しい解法を提案します。このハイパーネットワークが、エンコーダ(例: XLM-R)とデコーダLLM(例: Mistral-7B)の両方で新しいトークナイザーへ汎化することを実証的に示します。私たちの手法は、多言語およびコーディングのタスクで元のモデルの性能に近づきつつ、トークン化された系列長を顕著に短縮します。また、10億未満のトークンで継続学習を行うことで、残るギャップを素早く埋められることも分かりました。最後に、ベースの(L)LM向けに学習したZeTTハイパーネットワークは、追加学習なしでファインチューニング済みの変種にも適用できることを示します。全体として、私たちの結果は、LMをトークナイザーから切り離す方向に向けて大きな前進を示しています。
Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.
論文リンク
https://arxiv.org/abs/2405.07883
さらに読む
https://x.com/bminixhofer/status/1790267652587258343
WavCraft: 大規模言語モデルを用いた音声編集と生成 / WavCraft: Audio Editing and Generation with Large Language Models
論文紹介
音声コンテンツの制作と編集のためにタスク特化型モデルを接続し、ユーザーの指示を複数のタスクに分解して各タスクを特定のモジュールと協調して処理し、明示的なコマンドがなくてもユーザーが音声コンテンツと対話し制作できるようにするLLMを活用します。
Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands
論文要旨(Abstract)
大規模言語モデル(LLM)を活用して、音声コンテンツの制作・編集のために多様なタスク別モデルを接続する統合システム WavCraft を紹介します。具体的に WavCraft は、生の音声素材の内容を自然言語で記述し、音声の説明とユーザーの要求に応じて LLM をプロンプトします。WavCraft は LLM のインコンテキスト学習能力を活用して、ユーザーの指示を複数のタスクに分解し、各タスクを特定のモジュールと協調して処理します。一連のタスク別モデルとタスク分解を通じて、WavCraft は入力指示に従い、より詳細で根拠を備えた音声コンテンツを作成または編集し、ユーザーによる制御を容易にします。さらに WavCraft は、対話的なインタラクションを通じてユーザーと協調でき、明示的なユーザー命令がなくても音声コンテンツを制作できます。実験の結果、特に音声クリップのローカル領域を調整する際に、WavCraft は既存方式より優れた性能を発揮することが示されました。また WavCraft は、複雑な指示に従って入力録音の上に音声コンテンツを編集・制作できるため、幅広いアプリケーションで音声制作者を支援できます。実装とデモは、こちら(https://github.com/JinhuaLiang/WavCraft)で確認できます。
We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.
論文リンク
https://arxiv.org/abs/2403.09527v3
さらに読む
https://github.com/JinhuaLiang/WavCraft
RLHFワークフロー:報酬モデリングからオンラインRLHFまで / RLHF Workflow: From Reward Modeling to Online RLHF
論文紹介
オンライン反復型 RLHF を容易に再現できるレシピを提供し、オンライン反復型 RLHF の理論的洞察、アルゴリズム原理、そして実際の実装について説明します。
Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.
論文要旨(Abstract)
この技術レポートでは、近年の大規模言語モデル(LLM)文献において、オフライン版を大幅に上回る性能を示すと広く報告されているオンライン反復型強化学習(RLHF)のワークフローを紹介します。しかし、既存のオープンソースRLHFプロジェクトは依然としてオフライン学習環境にほぼ限定されています。この技術レポートでは、このギャップを埋め、オンライン反復RLHFを容易に再現できる詳細なレシピを提供することを目的としています。特に、リソースが限られたオープンソースコミュニティでは通常オンラインの人間フィードバックが不可能であるため、まず多様なオープンソースデータセットを用いて選好モデルを構築し、構築した代理選好モデルを使って人間フィードバックを近似します。次に、オンライン反復RLHFの理論的知見とアルゴリズム原理を議論し、その後に詳細な実装方法を見ていきます。学習済みLLMであるSFR-Iterative-DPO-LLaMA-3-8B-Rは、AlpacaEval-2、Arena-Hard、MT-BenchなどのLLMチャットボットベンチマークはもちろん、HumanEval、TruthfulQAなどの学術ベンチマークでも印象的な性能を達成しました。私たちは、教師ありファインチューニング(SFT)と反復RLHFが、完全なオープンソースデータセットを通じて最先端性能を達成できることを示しました。また、モデル、厳選されたデータセット、包括的なステップごとのコードガイドブックを公開しています。詳細は https://github.com/RLHFlow/RLHF-Reward-Modeling および https://github.com/RLHFlow/Online-RLHF を参照してください。
We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.
論文リンク
https://arxiv.org/abs/2405.07863v1
さらに読む
https://github.com/RLHFlow/RLHF-Reward-Modeling および https://github.com/RLHFlow/Online-RLHF
https://x.com/CaimingXiong/status/1790379121719361776
一度だけキャッシュする: 言語モデル向けデコーダー-デコーダーアーキテクチャ / You Only Cache Once: Decoder-Decoder Architectures for Language Models
論文紹介
キー・バリューペアを一度だけキャッシュするデコーダー-デコーダーLLMアーキテクチャは、グローバルなキー・バリューキャッシュを効率的に符号化する自己デコーダーの上にクロスデコーダーを積み重ね、クロスエンコーダーがクロスアテンションを通じてキャッシュを再利用することで、機能を損なうことなくGPUメモリ使用量を大幅に削減し、モデルサイズと学習トークン数を拡張するさまざまな設定においてTransformerと同等の性能を達成できます。
A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.
論文要旨(Abstract)
大規模言語モデル向けに、キー・バリューのペアを一度だけキャッシュする decoder-decoder アーキテクチャである YOCO を紹介します。このアーキテクチャは、self-decoder の上に cross-decoder を積み重ねた2つの構成要素から成ります。self-decoder は、cross-attention を通じて cross-decoder で再利用されるグローバルなキー・バリュー(KV)キャッシュを効率的にエンコードします。モデル全体は decoder-only Transformer のように振る舞いますが、YOCO はキャッシュを一度しか使いません。この設計により、グローバル attention の機能を維持しながら GPU メモリ需要を大幅に削減します。さらに、計算フローは最終出力を変更することなく prefill から early exit まで可能であり、prefill 段階を大幅に高速化します。実験結果によると、YOCO はモデルサイズと学習トークン数を拡張するさまざまな設定で Transformer と比べて良好な性能を達成しました。また、YOCO は 1M のコンテキスト長まで拡張され、needle retrieval でほぼ完全な精度を示しました。プロファイリング結果では、YOCO はコンテキスト長とモデルサイズ全体にわたり、推論メモリ、prefill レイテンシ、スループットを桁違いに改善することが示されています。コードは https://aka.ms/YOCO で確認できます。
We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.
論文リンク
https://arxiv.org/abs/2405.05254
さらに読む
https://github.com/microsoft/unilm/tree/master/YOCO
https://x.com/arankomatsuzaki/status/1788435838474355098
CAT3D: マルチビュー拡散モデルで何でも3D化 / CAT3D: Create Anything in 3D with Multi-View Diffusion Models
論文紹介
マルチビュー拡散モデルを使って現実のキャプチャ工程をシミュレートし、あらゆるものを 3D 化する手法を提案します。3D 再構成技術への入力として使える、一貫性のあるシーンの新規ビューを生成でき、リアルタイムにレンダリング可能な 3D 表現を作成できます。CAT3D のシーンは 1 分以内に生成でき、単一画像および少数ビューでの 3D シーン生成タスクにおいて既存手法を上回る性能が報告されています。
Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.
論文要旨(Abstract)
3D 再構成の進歩により高品質な 3D キャプチャが可能になりましたが、3D シーンを作成するには数百枚から数千枚の画像を収集する必要があります。Unity は、この現実のキャプチャ工程をマルチビュー拡散モデルでシミュレートし、あらゆるものを 3D 化できる手法 CAT3D を紹介します。任意の数の入力画像と目標となる新規視点セットが与えられると、このモデルはシーンの非常に一貫性の高い新規視点を生成します。こうして生成されたビューは、堅牢な 3D 再構成手法への入力として利用され、あらゆる視点からリアルタイムにレンダリング可能な 3D 表現を生成できます。CAT3D はわずか 1 分で 3D シーン全体を生成でき、単一画像および少数ビューによる 3D シーン生成で既存手法を上回る性能を発揮します。結果とインタラクティブなデモについては、プロジェクトページ(https://cat3d.github.io)を参照してください。
Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .
論文リンク
https://arxiv.org/abs/2405.10314
さらに読む
https://x.com/_akhaliq/status/1791294630614442009
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ed5
この記事は GPT モデルで整理したものであり、誤りが含まれている可能性があるため、記事下部の原文もあわせてご参照ください。お読みいただく中で不自然な点や誤りを見つけた場合は、コメントでお知らせいただけますと幸いです。 🤗
⚠️広告⚠️: 🔥PyTorch韓国ユーザー会🇰🇷がまとめたこの記事は役に立ちましたか? 会員登録していただくと、主要な記事をメール💌でお送りします! (基本はWeeklyですが、Dailyへの変更も可能です。)
まだコメントはありません。