Highlights
- ツールは Python、PyData、Pytorch、および Gradient-boosted Decision Tree(GBDT)に収束
- ディープラーニングは表形式データではまだ GBDT を置き換えられていない
- トランスフォーマーが NLP を主導し、コンピュータビジョンで畳み込みニューラルネットワーク(CNN)と競合し始める
- 競技大会は、コンピュータビジョン、NLP、表形式データ、ロボティクス、時系列分析を含む多様な研究分野を扱う
- 単一モデルのソリューションが優勝することもあるが、一般的には大規模なアンサンブル(ensemble)が勝利する
- 機械学習コンペティションのプラットフォームはいくつもあり、各コンペティション向けに作られた数十のサイトも存在する
- 競争的機械学習は、学術界を含めて引き続き人気が高まっている
- 優勝者の 50% はソロ優勝者で、優勝者の 50% は初優勝者。30% は以前に 2 回以上優勝している
- 一部の競技者は自分のソリューションを訓練するためにハードウェアへ多額の投資を行えるが、Google Colab のような無料ハードウェアを使う競技者でも依然として優勝できる
Competitive ML Landscape
- Notable Competitions and Trends
- 賞金額では、DrivenData の Snowcast Showdown(米国住宅都市開発省後援)。賞金 $500k
- 最も人気があったのは Kaggle の American Express Default Prediction。4,000 を超えるチームが参加。賞金 $100k。1 位は初参加のソロ(ニューラルネット + LightGBM)
- 最大の独立コンペティションは Stanford の AI Audit Challenge
- 最も大きかった分野はコンピュータビジョン:環境、医療
- 2 番目に大きかった分野は NLP:NLP + 検索、NLP + Reinforcement Learning
- Sequential Decision-Making 分野も成長中
- プラットフォーム
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- そのほかの興味深いプラットフォーム:Numerai、Markridakis Open Forecasting Center、Microprediction、OpenML、CodaBench,..
- Purpose
- うまく運営されたコンペティションは
- 解いてみたくなる興味深い問題を学習データとともに提供する
- 有能な潜在参加者の集まり
- オーバーフィットした参加者に不利益を与える仕組み
- 参加者が問題解決に実質的な努力を注ぐに足る十分な(金銭的)インセンティブ
- 優勝ソリューションに対する公開レビュー(コンペティション終了後)
Winning Solutions
- Winning Toolkit:Python、2 番目は C++
- 主に使われる Python パッケージ
- PyData:Numpy、Pandas、SciPy、Scikit Learn
- Deep Learning: PyTorch
- GBDT:LightGBM、XGBoost、CatBoost
- Hyperparameter Optimisation:Optuna
- Experiment Tracking:W&B
- Visualiation:matplotlib、seaborn
- NLP Toolkit:Tranformers
- Computer Vision Toolkit:Albumentations、OpenCV、pillow、scikit-image、timm
まだコメントはありません。