競争的機械学習の現状 2022

xguru · 2023-03-22T11:05:02+09:00

Highlights ツールは Python、PyData、Pytorch、および Gradient-boosted Decision Tree（GBDT）に収束ディープラーニングは表形式データではまだ GBDT を置き換えられていないトランスフォーマーが NLP を主導し、コンピュータビジョンで畳み込みニューラルネットワーク（CNN）と競合し始める競技大会は、コンピュータビジョン、NLP、表形式データ、ロボティクス、時系列分析を含む多様な研究分野を扱う単一モデルのソリューションが優勝することもあるが、一般的には大規模なアンサンブル（ensemble）が勝利する機械学習コンペティションのプラットフォームはいくつもあり、各コンペティション向けに作られた数十のサイトも存在する競争的機械学習は、学術界を含めて引き続き人気が高まっている優勝者の 50% はソロ優勝者で、優勝者の 50% は初優勝者。30% は以前に 2 回以上優勝している一部の競技者は自分のソリューションを訓練するためにハードウェアへ多額の投資を行えるが、Google Colab のような無料ハードウェアを使う競技者でも依然として優勝できる Competitive ML Landscape Notable Competitions and Trends 賞金額では、DrivenData の Snowcast Showdown（米国住宅都市開発省後援）。賞金 $500k 最も人気があったのは Kaggle の American Express Default Prediction。4,000 を超えるチームが参加。賞金 $100k。1 位は初参加のソロ（ニューラルネット + LightGBM）最大の独立コンペティションは Stanford の AI Audit Challenge 最も大きかった分野はコンピュータビジョン：環境、医療 2 番目に大きかった分野は NLP：NLP + 検索、NLP + Reinforcement Learning Sequential Decision-Making 分野も成長中プラットフォーム Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. そのほかの興味深いプラットフォーム：Numerai、Markridakis Open Forecasting Center、Microprediction、OpenML、CodaBench,.. Purpose うまく運営されたコンペティションは解いてみたくなる興味深い問題を学習データとともに提供する有能な潜在参加者の集まりオーバーフィットした参加者に不利益を与える仕組み参加者が問題解決に実質的な努力を注ぐに足る十分な（金銭的）インセンティブ優勝ソリューションに対する公開レビュー（コンペティション終了後） Winning Solutions Winning Toolkit：Python、2 番目は C++ 主に使われる Python パッケージ PyData：Numpy、Pandas、SciPy、Scikit Learn Deep Learning: PyTorch GBDT：LightGBM、XGBoost、CatBoost Hyperparameter Optimisation：Optuna Experiment Tracking：W&B Visualiation：matplotlib、seaborn NLP Toolkit：Tranformers Computer Vision Toolkit：Albumentations、OpenCV、pillow、scikit-image、timm

(mlcontests.com)

21 ポイント投稿者 xguru 2023-03-22 | まだコメントはありません。 | WhatsAppで共有

Highlights

ツールは Python、PyData、Pytorch、および Gradient-boosted Decision Tree（GBDT）に収束
ディープラーニングは表形式データではまだ GBDT を置き換えられていない
トランスフォーマーが NLP を主導し、コンピュータビジョンで畳み込みニューラルネットワーク（CNN）と競合し始める
競技大会は、コンピュータビジョン、NLP、表形式データ、ロボティクス、時系列分析を含む多様な研究分野を扱う
単一モデルのソリューションが優勝することもあるが、一般的には大規模なアンサンブル（ensemble）が勝利する
機械学習コンペティションのプラットフォームはいくつもあり、各コンペティション向けに作られた数十のサイトも存在する
競争的機械学習は、学術界を含めて引き続き人気が高まっている
優勝者の 50% はソロ優勝者で、優勝者の 50% は初優勝者。30% は以前に 2 回以上優勝している
一部の競技者は自分のソリューションを訓練するためにハードウェアへ多額の投資を行えるが、Google Colab のような無料ハードウェアを使う競技者でも依然として優勝できる

Competitive ML Landscape

Notable Competitions and Trends
- 賞金額では、DrivenData の Snowcast Showdown（米国住宅都市開発省後援）。賞金 $500k
- 最も人気があったのは Kaggle の American Express Default Prediction。4,000 を超えるチームが参加。賞金 $100k。1 位は初参加のソロ（ニューラルネット + LightGBM）
- 最大の独立コンペティションは Stanford の AI Audit Challenge
- 最も大きかった分野はコンピュータビジョン：環境、医療
- 2 番目に大きかった分野は NLP：NLP + 検索、NLP + Reinforcement Learning
- Sequential Decision-Making 分野も成長中
プラットフォーム
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- そのほかの興味深いプラットフォーム：Numerai、Markridakis Open Forecasting Center、Microprediction、OpenML、CodaBench,..
Purpose
- うまく運営されたコンペティションは
  - 解いてみたくなる興味深い問題を学習データとともに提供する
  - 有能な潜在参加者の集まり
  - オーバーフィットした参加者に不利益を与える仕組み
  - 参加者が問題解決に実質的な努力を注ぐに足る十分な（金銭的）インセンティブ
  - 優勝ソリューションに対する公開レビュー（コンペティション終了後）

Winning Solutions

Winning Toolkit：Python、2 番目は C++
主に使われる Python パッケージ
- PyData：Numpy、Pandas、SciPy、Scikit Learn
- Deep Learning: PyTorch
- GBDT：LightGBM、XGBoost、CatBoost
- Hyperparameter Optimisation：Optuna
- Experiment Tracking：W&B
- Visualiation：matplotlib、seaborn
- NLP Toolkit：Tranformers
- Computer Vision Toolkit：Albumentations、OpenCV、pillow、scikit-image、timm

競争的機械学習の現状 2022

Highlights

Competitive ML Landscape

Winning Solutions

関連記事

まだコメントはありません。