[2023/10/30 ~ 11/07] 今週の主要ML論文(Top ML Papers of the Week
(discuss.pytorch.kr)概要
-
DAIR.AIが毎週公開しているML論文に関する記事を自動翻訳してみました。
-
今週投稿された論文は、大規模言語モデル(Large Language Models, LLMs)およびその性能評価に焦点を当てた研究が中心です。特に「Evaluating LLMs」「LLMs for Chip Design」「Efficient Context Window Extension of LLMs」「Enhancing LLMs by Emotion Stimuli」などの論文からは、LLMの多様な応用と最適化の方法が議論されていることが確認できました。
-
こうした傾向は、ここ数年で人工知能分野におけるLLMの重要性が急速に高まっていることを反映しています。特にOpenAIのGPTシリーズのような先進的なモデルが、さまざまな自然言語処理(NLP)タスクで印象的な成果を示していることで、研究者たちはこれらのモデルをさらに発展させたり、新たな問題に適用したりする研究に注力しています。これとあわせて、モデルの効率を高め、感情や状況的文脈のような要素を用いてモデルの入出力をより豊かにする方法への関心も高まっています。
-
また、「Next Generation AlphaFold」のような論文では、LLMとは異なる文脈で、構造生物学のような専門分野に機械学習手法を適用することで革新的なアプローチを模索しているようです。こうした研究動向は、機械学習とディープラーニング技術が単なる理論的発展を超えて、実際の産業、科学、医学などさまざまな分野で具体的なアプリケーションへと発展していることを示唆しています。
疎な観測データから日次予報を行うためのディープラーニング / Deep Learning for Day Forecasts from Sparse Observations
論文紹介
- 観測ベースのモデルが高精度に予測できるリードタイムの範囲と変数の両方を拡張した最先端のニューラル気象モデルで、密なデータセンサーと疎なデータセンサーの両方から学習し、降水量、風、気温、露点について最大24時間先まで予測します。
> A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.
論文抄録
- 深層ニューラルネットワークは、気象条件をモデリングするための代替的なパラダイムを提供します。データが利用可能になれば1秒未満で予測を行えること、非常に高い時間的・空間的解像度で予測できること、そして大気観測から直接学習できることは、こうしたモデルの独自の利点の一部にすぎません。最高忠実度かつ最低レイテンシの大気観測データを用いて学習したニューラルモデルは、これまでのところ、最先端の確率的数値気象予測モデルと比較した場合、降水という単一の変数に限って最大12時間のリードタイムで良好な性能を達成するにとどまっていました。本論文では、観測ベースのニューラルモデルが良好に予測できる変数とリードタイムの範囲を大幅に拡張したMetNet-3を紹介します。MetNet-3は、密なデータセンサーと疎なデータセンサーの両方から学習し、降水量、風、気温、露点について最大24時間先まで予測します。MetNet-3は、きわめて疎なターゲットでネットワークを学習させるにもかかわらず、データ同化を暗黙的に捉え、空間的に密な予報を生成する重要な高密度化手法を導入しています。MetNet-3は、それぞれ最大2分および1kmという高い時間的・空間的解像度に加え、低い運用レイテンシを実現しています。MetNet-3は、CONUS地域において最大24時間先まで、HRRRやENSのような最良の単一およびマルチメンバーNWPを上回る性能を示し、観測ベースのニューラルネットワークモデルの新たな性能マイルストーンを打ち立てました。MetNet-3は現在運用中であり、その予報は他のモデルとあわせてGoogle検索で提供されています。
> Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
論文リンク
https://arxiv.org/abs/2306.06079
さらに読む
https://x.com/GoogleAI/status/1719774923294687636
大規模言語モデルを評価する:包括的サーベイ論文 / Evaluating Large Language Models: A Comprehensive Survey
論文紹介
- さまざまな種類の評価、データセット、手法などに関する議論を含む、LLM評価についての包括的なサーベイ(100ページ超)を提供します。 #llm-survey #llm-evaluation
> A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.
論文抄録
- 大規模言語モデル(LLM)は、幅広いタスクにおいて驚くべき能力を示してきました。大きな注目を集め、多数のダウンストリームアプリケーションに導入されています。しかし、諸刃の剣のように、LLMには潜在的なリスクも存在します。個人データの漏えいや、不適切・有害・誤解を招くコンテンツの生成が起こり得ます。さらに、LLMの急速な進歩により、十分な安全策のない超知能システムが出現する可能性への懸念も提起されています。LLMの能力を効果的に活用し、安全で有益な発展を確保するためには、LLMに対する厳密かつ包括的な評価を実施することが重要です。 このサーベイは、LLM評価に関する包括的な視点を提供することを目指しています。LLMの評価を、知識・能力評価、アラインメント評価、安全性評価の3つの主要なグループに分類しています。これら3つの側面に関する評価手法とベンチマークの包括的なレビューに加え、専門領域におけるLLMの性能に関する評価の概観を整理し、能力、アラインメント、安全性、適用可能性に関するLLM評価を網羅する総合評価プラットフォームの構築について議論しています。 この包括的な概観を通じて、LLM評価に関するさらなる研究が促進され、最終的には評価がLLMの責任ある開発を導く礎石として機能することを期待しています。これにより、潜在的なリスクを最小化しながら社会的便益を最大化する方向へ発展していくことを望んでいます。厳選された関連論文の一覧は https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers で確認できます。
> Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
論文リンク
https://arxiv.org/abs/2310.19736
さらに読む
https://x.com/omarsar0/status/1719351676828602502
バックボーンの戦い:コンピュータビジョンタスク全般にわたる事前学習済みモデルの大規模比較 / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
論文紹介
- 多様なコンピュータビジョンタスクのための大規模ベンチマーキングフレームワーク。ビジョントランスフォーマー(ViT)と自己教師あり学習(SSL)の人気が高まる一方で、大規模学習セットで教師あり事前学習された畳み込みニューラルネットワークが、ほとんどのタスクで最も優れた性能を示すことを確認しました。 #self-supervised #vision-transformer
> A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.
論文要旨
- ニューラルネットワークベースのコンピュータビジョンシステムは、一般に事前学習済みまたはランダム初期化された特徴抽出器であるバックボーンの上に構築されます。数年前までは、ImageNetで学習された畳み込みニューラルネットワークが標準的な選択肢でした。しかし近年では、さまざまなアルゴリズムとデータセットを用いて事前学習された無数のバックボーンが登場しています。選択肢が増えたことで多様なシステムの性能は向上しましたが、実務者がどのバックボーンを選ぶべきかについて十分な情報に基づいて判断するのは容易ではありません。Battle of the Backbones(BoB)は、分類から物体検出、OOD汎化など多様なコンピュータビジョンタスクにわたり、視覚言語モデル、自己教師あり学習で学習されたモデル、Stable Diffusionバックボーンなど、多様な事前学習済みモデル群をベンチマークすることで、この選択を容易にします。さらにBoBは、1,500回を超える学習実行に対する包括的な分析を通じて既存アプローチの長所と短所を明らかにし、研究コミュニティがコンピュータビジョンを前進させるための有望な方向性を示します。Vision Transformer(ViT)と自己教師あり学習(SSL)の人気は高まっていますが、私たちの調査では、大規模な学習セットで教師あり事前学習された畳み込みニューラルネットワークが、検討対象のモデルの中で依然として大半のタスクで最も優れた性能を示すことが分かりました。また、同一アーキテクチャおよび同程度の規模の事前学習データセットによる公平な比較では、SSLバックボーンが非常に高い競争力を持つことも分かっており、今後の研究ではより高度なアーキテクチャとより大規模な事前学習データセットを用いたSSL事前学習を行うべきであることを示しています。研究者が自分自身のバックボーンを試せるコードとともに、実験の生データをこちらで公開しています(https://github.com/hsouri/Battle-of-the-Backbones)
> Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
論文リンク
https://arxiv.org/abs/2310.19909
さらに読む
https://x.com/micahgoldblum/status/1719719308882801045
ChipNeMo:チップ設計のためのドメイン適応型LLM / ChipNeMo: Domain-Adapted LLMs for Chip Design
論文紹介
- ドメイン適応技術を活用して産業用チップ設計にLLMを用いることを提案し、アシスタントチャットボット、電子設計自動化、バグ要約など、チップ設計向けのさまざまなアプリケーションを評価しています。ドメイン適応は多様な設計タスクにおいて汎用モデルよりも大幅に性能を向上させ、RAGにドメイン適応型LLMを用いることで回答品質はさらに改善されます。
> Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.
論文要旨
- ChipNeMoは、産業用チップ設計における大規模言語モデル(LLM)の応用分野の探求を目的としています。既製の商用またはオープンソースのLLMをそのまま展開するのではなく、カスタムトークナイザー、ドメイン適応型の継続事前学習、ドメイン固有の指示を用いた教師ありファインチューニング(SFT)、ドメイン適応型検索モデルといったドメイン適応技術を採用しています。チップ設計向けの3つのLLMアプリケーション、すなわちエンジニアリング支援チャットボット、EDAスクリプト生成、バグ要約および分析に対して、これらの手法を評価しています。その結果、これらのドメイン適応手法を用いることで、評価対象の3種類のアプリケーションすべてにおいて、汎用ベースモデルと比べてLLMの性能が大幅に向上し、さまざまな設計タスクで同等以上の性能を維持したまま、モデルサイズを最大5分の1まで削減できることが示されました。また、本研究の結果は、現在の成果と理想的な結果の間にはなお改善の余地があることも示しています。ユニティは、今後ドメインに適したLLMアプローチをさらに研究することで、このギャップの縮小に役立つと期待しています。
> ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
論文リンク
https://arxiv.org/abs/2311.00176
さらに読む
https://x.com/omarsar0/status/1720066328961159387
YaRN: 大規模言語モデルの効率的なコンテキストウィンドウ拡張 / YaRN: Efficient Context Window Extension of Large Language Models
論文紹介
- 事前学習済みのコンテキストウィンドウを超えてLLMのコンテキストウィンドウを効率的に拡張する、計算効率の高い手法を提案し、ファインチューニング用データセットの限られたコンテキストを超えて外挿することで、最大128kのコンテキスト長までモデルを再現しました。 #yarn
> Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.
論文要旨
- 回転位置埋め込み(RoPE)は、Transformerベースの言語モデルにおいて位置情報を効果的にエンコードすることが示されています。しかし、こうしたモデルは学習時のシーケンス長を超えると一般化できません。このようなモデルのコンテキストウィンドウを拡張する計算効率の高い手法として、従来手法より10分の1のトークン数、2.5分の1の学習ステップで済むYaRN(もうひとつのRoPE拡張手法)を紹介します。YaRNを使うことで、LLaMAモデルが元の事前学習で許容される長さをはるかに超えるコンテキスト長を効果的に活用し、外挿できること、さらにコンテキストウィンドウ拡張において従来の最先端手法を上回ることを示します。加えて、ファインチューニング用データセットの限られたコンテキストを超えて外挿できる能力も、YaRNによって実証されました。YaRNを用いてファインチューニングされたモデルは、最大128kのコンテキスト長までオンライン(https://github.com/jquesnelle/…
> Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
論文リンク
https://arxiv.org/abs/2309.00071
さらに読む
https://x.com/theemozilla/status/1720107186850877662
https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…
直接空気回収における吸着材発見のための Open DAC 2023 データセットと課題 / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture
論文紹介
- 吸着された二酸化炭素および/または水素を含む8,800件以上のMOF材料に対する3,800万件以上の密度汎関数理論(DFT)計算で構成されるデータセットを紹介します。データセットからDACに関する特性を直接特定し、データセットで最先端のMLモデルを学習させてDFTレベルの計算を近似しており、今後DACを含む幅広いアプリケーション向けのMOFを特定しようとする取り組みにおいて重要なベースラインとなり得ます。
> Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.
論文要旨
- 地球規模の気候変動に対処するためには、二酸化炭素を除去する新しい方法が緊急に必要です。直接空気回収(DAC)は、大気中の空気から二酸化炭素を直接回収する新しい技術です。金属有機構造体(MOF)は、DAC向けのカスタマイズ可能な吸着材候補として広く研究されてきました。しかし、探索すべき化学空間が広大であり、湿度や温度の関数として材料を理解する必要があるため、DAC向けの有望なMOF吸着材を発見することは困難です。Pure Storageは、近年の機械学習(ML)の革新を活用した計算アプローチを探究し、吸着されたCO2および/またはH2Oを含む8,800件以上のMOF材料に対する3,800万件以上の密度汎関数理論(DFT)計算で構成されるOpen DAC 2023(ODAC23)というデータセットを提示します。ODAC23は、現在利用可能なDFTレベルの精度を持つMOF吸着計算データとしては群を抜いて最大のデータセットです。このデータセットは、吸着分子の特性を調べることに加えて、MOFの構造緩和に関する豊富な情報も提供しており、これはDACという特定用途を超えたさまざまな文脈で有用です。DACに有望な特性を持つ多数のMOFが、ODAC23から直接特定されました。さらに、このデータセットに基づいて最先端の機械学習モデルを学習し、DFTレベルでの近似計算を実行しました。このオープンソースのデータセットと初期MLモデルは、今後DACを含む幅広いアプリケーション向けのMOFを特定するための取り組みにおいて、重要なベースラインとなるでしょう。
> New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
論文リンク
https://arxiv.org/abs/2311.00341
さらに読む
https://x.com/AIatMeta/status/1720143486505341128
機械学習において対称性を適用・発見・促進するための統合フレームワーク / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
論文紹介
- 機械学習において対称性を適用、発見、促進するための統一的な方法論フレームワークを提示し、これらのアイデアを多層パーセプトロンや基底関数回帰などのMLモデルにどのように適用できるかについても議論します。
> Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.
論文要旨
- 対称性は自然界のあらゆるところに存在し、物理学および機械学習においてますます中心的な役割を果たしています。ポアンカレ不変性のような基本的な対称性により、地球上の実験室で発見された物理法則を宇宙の最果てにまで外挿できます。機械学習アプリケーションでこのような外挿能力を実現するには、対称性が不可欠です。たとえば画像分類では、並進不変性を利用することで、畳み込みニューラルネットワークのようなパラメータ数の少ないモデルをより小規模なデータセットで学習させ、最先端の性能を達成できます。この論文では、機械学習モデルに対称性を組み込むための統一的な理論的・方法論的フレームワークを、次の3つの方法で提示します。1. モデル学習時に既知の対称性を適用する、2. 与えられたモデルまたはデータセットの未知の対称性を発見する、3. データに十分な証拠がある場合に、ユーザーが指定した候補群の中で対称性を破るモデルを学習することで、学習中に対称性を促進する。この3つの方法により、機械学習モデルを学習する際に対称性を強化できます。これらの課題は、ベクトル束上のファイバー線形Lie群作用に関連するLie導関数を中心的対象とする共通の数学的フレームワークの中で定式化できることを示します。また、対称性の強制と発見が、Lie導関数の双線形構造に関して双対な線形代数的課題であることを示すことで、既存の複数の結果を拡張・統合します。さらに、機械学習モデルの学習中に対称性の破れにペナルティを与える、Lie導関数と核ノルム緩和に基づく凸正則化関数のクラスを導入し、対称性を促進する新しい方法を提案します。これらのアイデアを、基底関数回帰、動的システム発見、多層パーセプトロン、画像のような空間場に作用するニューラルネットワークなど、幅広い機械学習モデルにどのように適用できるかを説明します。
> Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
論文リンク
https://arxiv.org/abs/2311.00212
さらに読む
https://x.com/eigensteve/status/1720115655050227911
次世代AlphaFold / Next Generation AlphaFold
論文紹介
- AlphaFoldの適用範囲を大幅に拡張する新しい反復版の進捗を報告し、タンパク質、核酸、低分子、イオン、修飾残基を含む複合体の結合構造予測能力を示すとともに、タンパク質-核酸相互作用において専用予測器より高い精度を示しています。
> Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.
論文リンク
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
さらに読む
https://x.com/demishassabis/status/1719345831730368596
大規模言語モデルは感情的刺激を理解し、それによって強化されうる / Large Language Models Understand and Can be Enhanced by Emotional Stimuli
論文紹介
- Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4 などさまざまな人工知能を用いて45のタスクに対する自動実験を実施し、包括的な評価シナリオを表す決定論的および生成的アプリケーションにまたがる課題を実行した結果、人工知能が感情知能を把握していることを示しています。
> Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.
論文要旨
- 感情知能は、私たちの日常的な行動や相互作用に大きな影響を与えます。大規模言語モデル(LLM)はさまざまなタスクで印象的な性能を示し、汎用人工知能に向けた前進と見なされていますが、LLMが心理的な感情刺激を本当に把握できるかどうかは、いまだ不確かです。感情的な手がかりを理解し、それに応答することは、問題解決において人間に明確な優位性を与えます。本論文では、人工ニューラルネットワークの感情刺激理解能力を探るための第一歩を踏み出します。そのためにまず、Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4など、さまざまなLLMを用いて45のタスクに対する自動実験を行います。これらのタスクは、包括的な評価シナリオを表す決定論的アプリケーションと生成アプリケーションにまたがっています。自動実験の結果、LLMは感情知能をある程度理解しており、感情プロンプト(元のプロンプトと感情刺激を組み合わせたもので、「EmotionPrompt」と呼ぶ)によって性能を向上できることが示されました(例: Instruction Inductionで8.00%、BIG-Benchで115%の相対性能向上)。既存の指標を使って自動評価できる決定論的タスクに加え、106人の参加者を対象に、バニラプロンプトと感情プロンプトの両方を用いた生成タスクの品質を評価する人間研究も実施しました。人間研究の結果、EmotionPromptは生成タスクの成果を大幅に向上させることが示されました(性能、真実性、責任感の指標で平均10.9%向上)。本稿では、EmotionPromptがLLMに有効である理由と、その性能に影響を与えうる要因について深く議論します。私たちは、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求する新たな道を切り開くと考えています。
Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
論文リンク
https://arxiv.org/abs/2307.11760
さらに読む
https://x.com/emollick/status/1720135672764285176
FP8-LM: FP8大規模言語モデルの学習 / FP8-LM: Training FP8 Large Language Models
論文紹介
- FP8 LLMを学習する際、勾配やオプティマイザ状態などのほとんどの変数について、モデル精度を損なうことなく、またハイパーパラメータを変更する必要もなく、低精度データ形式を使用できることを発見しました。
Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.
論文要旨
- この論文では、大規模言語モデル(LLM)の効率的な学習のためのFP8低ビットデータ形式を検討します。私たちの中核的な洞察は、LLM学習における勾配やオプティマイザ状態などのほとんどの変数が、モデル精度を損なうことなく、またハイパーパラメータを変更する必要もなく、低精度データ形式を使用できるということです。特に、UnityはLLM学習のための新しいFP8自動混合精度フレームワークを提案します。このフレームワークは、LLMの混合精度および分散並列学習を簡素化するために、3段階のFP8活用レベルを提供します。このフレームワークは、8ビット勾配、オプティマイザ状態、分散学習を段階的に統合します。実験結果によると、H100 GPUプラットフォームでGPT-175Bモデルを学習する際、UnityのFP8混合精度学習フレームワークは、実メモリ使用量を42%削減しただけでなく、広く採用されているBF16フレームワーク(例: Megatron-LM)より64%高速に動作し、NVIDIA Transformer Engineの速度も17%上回ることが示されました。これにより、大規模ファウンデーションモデルのトレーニングコストを大幅に削減できます。さらに、UnityのFP8混合精度学習手法は汎用的です。人間のフィードバックによるLLM命令チューニングや強化学習など、ほかのタスクにもシームレスに適用できるため、ファインチューニングコストも削減できます。UnityのFP8低精度学習フレームワークは、{https://github.com/Azure/MS-AMP}{aka.ms/…
> In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
論文リンク
https://arxiv.org/abs/2310.18313
さらに読む
https://x.com/arankomatsuzaki/status/1718813303223222765
原文
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0
まだコメントはありません。