ジェフ・ディーン：機械学習の最新動向［ビデオ］

(youtube.com)

25 ポイント投稿者 GN⁺ 2024-02-21 | 3件のコメント | WhatsAppで共有

Jeff Dean(Google): 機械学習の興味深いトレンド

機械学習の興味深い傾向と期待

機械学習はここ数年で、コンピュータに何ができるかについての私たちの期待を大きく変えてきた。
言語、画像、自然言語処理などあらゆる分野で、コンピュータは世界をよりよく認識し理解できるようになった。
コンピュータが見て *感知できる技術の進歩は、人間活動のほぼすべての分野で多くの機会を開いている。
より大規模な計算資源や、特化したコンピュータなどの進歩は、より良い結果をもたらし、*新たな可能性を切り開いた。
私たちには、*コンピュータができることの範囲をより効率的に絞り込みつつ、高効率で駆動できる、さらに多様な形態のハードウェアが必要だ。

音声認識、翻訳、画像解析技術の進歩と予測精度の向上

音声認識技術は、音声波形を5秒間の意味のある発話に変換するものであり、この分野で大きな進歩があった。
翻訳技術は、ある言語から別の言語への翻訳がコンピュータにとって大いに役立つ機能へと発展している。
画像解析技術は、ラベル名だけでなく、場面を説明する短い文に変換できるようになるなど、コンピュータビジョン分野で大きく進歩した。
また、過去数年の間に、これらの技術を逆方向に活用することも可能になった。
10年の間に、人間の正確性を上回るほどの性能向上が実現したのは驚くべきことだ。

AIモデルの品質向上のためのハードウェアスケーリングの重要性

音声認識の精度を測る代表的なベンチマークである「Word Error Rate」は、従来の13.25%から2.5%まで大きく改善された。
これにより使い勝手が大きく向上し、今ではメールの書き起こしやディクテーションができるほど信頼できるようになった。
特にハードウェアのスケールアップはモデル品質の向上に役立ち、そのためには機械学習向けに最適化されたハードウェアが必要となる。
ニューラルネットワーク(neural network)モデルには、低精度を用いても問題がないという特徴があり、これによってより効率的なモデル学習が可能になる。
また、モデル学習に用いられるアルゴリズムは、線形代数演算のさまざまな組み合わせで構成されているため、低精度の線形代数演算を効率よく処理できるコンピュータが必要だ。

コンピュータネットワークの発展と言語モデルへの情熱

第1世代は、シンプルだが高帯域幅なネットワークだった。各チップは2Dグリッドで接続され、16x6グリッド上で4つの隣接チップと配線で結ばれていた。
これによりネットワークでルーティングを行う必要がなく、チップ間を短距離で接続できるため、高速帯域幅で安価な接続が可能になった。
次世代では8ラック・1024チップへ拡張され、その次の世代では64ラックにそれぞれ64チップを使用した。
特に最近ではV5シリーズが登場しており、推論向けに256チップを使う V5Pモデルは、各チップ当たりより多くのメモリ、高い帯域幅、そしてメモリ帯域幅を提供する。
このモデルは16ビット浮動小数点性能で、チップ当たりほぼ0.5ペタフロップスの性能を提供し、XORフロップスではチップ当たり約9,000個のチップとして計算できる。
コンピュータができることの中でも、最も大きな変化が起きている分野の1つが言語だ。画像認識や音声認識の進歩について話してきたが、実際には言語モデルへの関心はNNネットワーク以前からあった。そのため私たちはGoogle翻訳チームと協力し、言語モデルの研究を進めた。

大量のデータとシンプルな技術で高品質な翻訳システムを構築

科学コンペティション向けに開発された高品質な翻訳システムを、実際の業務で使えるようにしようと努めた
2兆トークンの中で5単語シーケンスがどれほど頻繁に現れるかを統計化し、3,000億個のユニークな5-gramをメモリに保存するシステムを構築
存在しないデータを探す際には、その前の4-gram、3-gramなどを参照する新しいアルゴリズム stupid backoff を開発
シンプルな手法でも大量のデータと組み合わせれば効果的な結果を得られるという教訓を得た

単語を高次元ベクトルで表現し、類似した文脈の単語を近く、異なる文脈の単語を遠くに配置

単語を離散的に表現する代わりに、高次元ベクトルで表現し、似た文脈にある単語同士を近づけ、異なる文脈にある単語同士を遠ざける。
膨大なデータを用いて トレーニングプロセス を経ることで、似た文脈で出現する単語同士を近づけ、異なる文脈で出現する単語同士を遠ざけ、空間内で類似単語をまとめて配置する。
分散表現 は、単語を表す100次元ベクトルの中に多くの情報をエンコードし、この方法によって言語翻訳モデルである「シーケンス・ツー・シーケンス学習」が開発された。
「シーケンス・ツー・シーケンス学習」は ニューラルネットワーク を用い、文を1つずつ入力しながら文を構成し、各単語の分散表現を更新して翻訳結果を出力する。

モデルを用いた自然言語翻訳とマルチターン対話の実行

訓練データには英語文と、それに対応する意味のフランス語文が含まれており、このデータでモデルを訓練する。
入力された英語文から始めて、フランス語文へ翻訳するモデルを構築する。
マルチターン対話のため、過去のやり取りで構成されたコンテキストを使い、適切な応答を生成するようモデルを訓練する。
Transformerモデルを使用して入力を並列処理し、各部分に注意を向けることで翻訳精度を改善する。
現在では、アルゴリズムと機械学習ハードウェアの進歩により、より大規模なモデルを訓練し、より効率的な応答を生成できる。

さまざまなモダリティを区別なく処理できる対話型マルチモーダルモデルの開発

OpenAIのMina、ChatGPT、GoogleのBardのようなニューラルネットワーク対話モデルの進歩について語った。
言語モデルの変化にも触れ、OpenAIのGPT2とGoogleのT5の取り組みに言及した。これらのモデルはパラメータ数が大幅に増加している。
こうした取り組みの基礎となるTransformerの発展についても言及した。
OpenAIのGPT3、GPT-4、およびGoogleのGeminiプロジェクトなどについて語った。Geminiプロジェクトは、テキストだけでなく画像、音声などさまざまなモダリティを同時に処理できるモデルの開発を目指している。
Geminiプロジェクトは、テキストと画像、動画、音声などを1つのシーケンスとして処理し、Transformerを基盤にモデルを訓練する。これにより、さまざまなモダリティに対して一貫した表現を構築できる。

TensorFlow訓練インフラ、さまざまなサイズのGemini製品と自動復旧システム

TensorFlowのGeminiはUltra、Pro、Nanoの3つのサイズで提供され、それぞれのモデルは異なる用途や環境に適している。
Geminiはモデル訓練のための非常にスケーラブルなファブリックを提供し、高性能ネットワークと自動復旧システムを備えている。
検出された failures を最小化するために、マルチノード環境で同時にアップグレードを実行し、高速ネットワークで他の複製の状態を復元し、復旧時間を数秒にまで短縮できる。
さまざまなデータを使ってモデルを訓練し、Web文書、本、コード、画像、音声、動画など多様な形式を訓練データとして用いる。
モデル訓練データの最終構成は、小規模モデルで実験し性能を評価して決定され、さまざまな評価指標を使って最適なデータ混合を見つける。

データ品質は重要であり、考慮されるべきである。モデルアーキテクチャよりもデータ品質の方が重要である。

学習の最後には、ドメイン関連データを活用して多言語データを追加する。
高品質なデータはモデル性能に大きな差を生む。
自動的にカリキュラムを学習できる能力は、今後の研究分野の1つである。
質問時にモデルがより効果的に答えられるようにする方法や、モデルの強みを最大限に引き出す方法についての研究も進んでいる。
チェーン・オブ・ソート・プロンプティング技法を使うと、モデルはより多くの段階を考慮して正確な回答を提供できる。

モデル評価と性能分析の結果を確認する

このモデルは、学生が誤った答えを導いた事例 を例として紹介し、修正すべき部分を指摘する。
モデルは32の学術ベンチマークを評価し、Gemini Ultraモデルは30のベンチマークで従来予想された性能を超える結果を示した。
このモデルは 多言語性能も考慮し、複雑なトレードオフを検討 する。
このモデルは映像理解とマルチモーダル能力に優れ、さまざまなベンチマークで 優れた成果を達成 したことが示された。

Geminiモデルは優れた音声認識性能と多言語能力を持ち、チャットボットとしてプログラミングまで可能

Geminiモデルは、さまざまな音声認識基準で最高水準の誤り率を示し、多言語能力も優れている。
従来からチームは多大な努力を払ってモデルを評価し、その能力を詳細に理解するための作業を行ってきた。
Geminiモデルは有益な情報やプログラミングコードも提供できるため、非常に驚かされた。
また、TPUに関する知識も備えており、優れた効率性と性能向上を提供すると説明している。
Geminiモデルはさまざまなチャットボットの個性を持つことができ、その中でBardは役に立つ友人として質問を助け、このモデルはLMYサイトで高いELOスコアを達成したことで知られている。

人工知能モデルの活用とドメイン別訓練

さまざまなモデルがあり、その中には上位の結果を示す無料サービスもあれば、そうでない有料サービスもある。
Geminiは、イングランド、米国、韓国、台湾、シンガポールの「人口100万人当たりの企業数」を計算し、表形式で提供する。
イングランドの数が最も高く、その解釈も示し、米国、韓国、台湾、シンガポールの順に並ぶ。
各情報はさまざまなソースから収集されており、正確な定義によって実際の数値は多少異なる可能性がある。
人工知能モデルをドメイン別に訓練すれば、特定の問題に対して専門的な結果を得ることができる。

画像と動画を生成する生成モデルについての簡単な説明。

この動画では、画像と動画を生成する 生成モデル について簡単に説明する。
関連研究プロジェクトとして「Party」と「Imagine」があり、視覚画像を生成するモデルを作るにあたり、テキスト入力を用いて特定の画像を生成できる。
たとえば、新しい画像を作ってみよというテキスト入力 に対し、モデルがそれを解釈して実際の画像を生成する。
このような生成モデルは、物体描写とともにピクセルに対するテキスト表現を基に画像を生成する。
この方法により、望むテキストに基づいた画像を生成できる。

画像機能の進歩はスマートフォン利用者に利便性をもたらす。

画像解析モデルを異なるパラメータで複数訓練すると、規模に応じて結果が変わる。
スマートフォンのカメラ機能は、計算写真学と機械学習の組み合わせによってさらに向上した。
写真モード、夜景モード、色強調、自動対話応答など、さまざまな機能によりリアルタイム変換やテキスト抽出が可能だ。
これらの機能は、ユーザーの文脈を考慮して、存在しないもののように見える変換や応答を提供する。
鮮明な画像送信や多言語翻訳など、リテラシーが限られた環境でも革新的な利点を提供する。

機械学習技術を活用した材料科学と医療分野での応用

材料科学分野では機械学習が使われており、高速シミュレータの生成など、さまざまな側面に影響を与えている。
機械学習によって、可能な材料を調査し、特性を持つ材料を特定する大きな潜在力がある。
医療分野では、医療画像診断にも機械学習が使われており、糖尿病網膜症などを早期に発見できる。
医療画像解析を通じて、医師が不足する地域でも患者をトリアージでき、人工知能モデルが専門医に近い有効性を持ちうる。

機械学習とコンピュータが世界を変える中で、機械学習の適用と責任に関する原則

GPUを使って高速スクリーニングや、写真による皮膚科診断を実施
不公平なバイアスの除去、モデルの解釈可能性、プライバシーへの配慮、社会的利益など、機械学習適用に関する原則を発表
現在もバイアス、プライバシー、安全性などに関する研究を進めている
機械学習とコンピューティングの進歩により、ユーザーとの自然な対話や相互作用が可能になり、コンピュータが多様な形の情報を理解し生成できるようになると期待される
こうした技術の可能性と同時に、社会に対する責任感も持たなければならない

寄せられた質問を通じてデータの重要性と顧客要件について議論

Slidoを通じて届いた質問のうち、いくつかの傾向を持つ質問を選んで共有する。
データ分野では、高品質データとモデル容量がモデル性能を向上させうる。
しかし、データ品質とモデルサイズの両方を考慮する必要がある。低品質なデータは、モデルの数学問題解決能力などに悪影響を与える可能性がある。
大量の動画データを用いた学習は、まだ十分には行われておらず、言語データだけでなく視覚や音声データを通じて世界を理解することは、言語だけで学習するのとは異なるだろう。
全体として、データの枯渇はまだ起きておらず、さらなる発展の可能性がある。

マルチモーダルモデルは、それぞれのドメイン向けターゲットモデルよりも性能が高いのか？

マルチモーダルモデルは、場合によってはより高い性能を示すことがある。
モダリティを増やすほど、他のモダリティの性能も向上する傾向がある。
狭い問題に対してターゲット化されたデータセットを収集した場合、その問題に対する性能は高くなりうる。
しかし、複雑な問題であったり、特化データの収集が難しい場合には、多様な知識を持つモデルが必要になる。
リソースの少ない個人にとっては大規模モデルの訓練は難しいため、machine learning 分野では多様な研究テーマを探究できる。

GPUを用いたモデル研究と、多様なデータモダリティの重要性を強調

1基のGPU、または少数のGPUを用いて、データ品質評価、自動評価、オンラインカリキュラム学習、最適化手法といった研究が可能である。
Transformer研究は8基のGPU上で実施された。LLMやシーケンス・ツー・シーケンスモデルもまた8基のGPUで研究された。
LLMやTransformerがすべてなのかという疑問が提起されており、機械学習分野で他のモデル研究にはどのような役割があるのかという考えがある。
他のアイデアに注目すべき進展が起こらないのは、あまりに具体化されていない、あるいは十分に探究されていないアイデアを排除してしまっているからかもしれない、という懸念がある。
視覚、音声、言語だけでなく、医療における心拍センサーデータのような他のモダリティも含め、多様なモダリティを扱うことが重要だと考えられる。

3件のコメント

everfrost314 2024-02-21

ジェミニの話が半分ですね（笑）

xguru 2024-02-21

動画の内容はLilys.AIが要約したものです。

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

ありがとうございます.. xguruさんがすでに作ってくださっていたので、1秒で結果を見られました... ^^

ジェフ・ディーン：機械学習の最新動向［ビデオ］

関連記事

3件のコメント