21 ポイント 投稿者 xguru 2023-03-22 | まだコメントはありません。 | WhatsAppで共有

Highlights

  • ツールは Python、PyData、Pytorch、および Gradient-boosted Decision Tree(GBDT)に収束
  • ディープラーニングは表形式データではまだ GBDT を置き換えられていない
  • トランスフォーマーが NLP を主導し、コンピュータビジョンで畳み込みニューラルネットワーク(CNN)と競合し始める
  • 競技大会は、コンピュータビジョン、NLP、表形式データ、ロボティクス、時系列分析を含む多様な研究分野を扱う
  • 単一モデルのソリューションが優勝することもあるが、一般的には大規模なアンサンブル(ensemble)が勝利する
  • 機械学習コンペティションのプラットフォームはいくつもあり、各コンペティション向けに作られた数十のサイトも存在する
  • 競争的機械学習は、学術界を含めて引き続き人気が高まっている
  • 優勝者の 50% はソロ優勝者で、優勝者の 50% は初優勝者。30% は以前に 2 回以上優勝している
  • 一部の競技者は自分のソリューションを訓練するためにハードウェアへ多額の投資を行えるが、Google Colab のような無料ハードウェアを使う競技者でも依然として優勝できる

Competitive ML Landscape

  • Notable Competitions and Trends
    • 賞金額では、DrivenData の Snowcast Showdown(米国住宅都市開発省後援)。賞金 $500k
    • 最も人気があったのは Kaggle の American Express Default Prediction。4,000 を超えるチームが参加。賞金 $100k。1 位は初参加のソロ(ニューラルネット + LightGBM)
    • 最大の独立コンペティションは Stanford の AI Audit Challenge
    • 最も大きかった分野はコンピュータビジョン:環境、医療
    • 2 番目に大きかった分野は NLP:NLP + 検索、NLP + Reinforcement Learning
    • Sequential Decision-Making 分野も成長中
  • プラットフォーム
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • そのほかの興味深いプラットフォーム:Numerai、Markridakis Open Forecasting Center、Microprediction、OpenML、CodaBench,..
  • Purpose
    • うまく運営されたコンペティションは
      • 解いてみたくなる興味深い問題を学習データとともに提供する
      • 有能な潜在参加者の集まり
      • オーバーフィットした参加者に不利益を与える仕組み
      • 参加者が問題解決に実質的な努力を注ぐに足る十分な(金銭的)インセンティブ
      • 優勝ソリューションに対する公開レビュー(コンペティション終了後)

Winning Solutions

  • Winning Toolkit:Python、2 番目は C++
  • 主に使われる Python パッケージ
    • PyData:Numpy、Pandas、SciPy、Scikit Learn
    • Deep Learning: PyTorch
    • GBDT:LightGBM、XGBoost、CatBoost
    • Hyperparameter Optimisation:Optuna
    • Experiment Tracking:W&B
    • Visualiation:matplotlib、seaborn
    • NLP Toolkit:Tranformers
    • Computer Vision Toolkit:Albumentations、OpenCV、pillow、scikit-image、timm

まだコメントはありません。

まだコメントはありません。