TabPFN - テーブルデータのためのファウンデーションモデル
(github.com/PriorLabs)- テーブル(構造化)データ専用のファウンデーションモデルで、scikit-learnスタイルの
fit/predictインターフェースにより分類・回帰タスクをすぐに実行可能 - 基本モデルTabPFN-2.6は純粋な合成データで学習されており、初回利用時にチェックポイントを自動ダウンロードするため、別途学習パイプラインを構成する必要がない
- データ前処理も不要: スケーリング、ワンホットエンコーディングなどを適用せず、生データをそのまま入力すべきであり、欠損値も自動処理可能
- GPU推奨(約8GB VRAM以上)で、CPUでは約1,000サンプル以下のみ実行可能。GPUのない環境向けにTabPFN Client(クラウド推論)も提供
- バッチ予測が必須: 個別サンプルごとに
predictを呼び出すと学習セットを毎回再計算するため、単一呼び出しと比べて約100倍遅い — テストセットは1,000件単位で分割することを推奨 - 最適な性能範囲は10万サンプル・2,000特徴量以下で、5万〜10万サンプルでは
ignore_pretraining_limits=True設定、10万超ではLarge Datasets Guideを適用 - TabPFN Extensionsにより、SHAP解釈、異常値検知、合成データ生成、埋め込み抽出、ハイパーパラメータ最適化、Post-Hocアンサンブルなどの拡張機能を提供
- HuggingFaceでは多数の特化チェックポイントを提供: 大規模特徴量(最大1,000)、大規模サンプル(3万+)、小規模サンプル(3K未満)、実データでファインチューニングしたバージョンなど
- Enterprise Editionでは、蒸留エンジンベースの低遅延推論、最大1,000万行対応、商用ライセンスを提供
- コードなしで利用できるTabPFN UX(ノーコードのグラフィカルインターフェース)も別途提供
- コードはPrior Labs License(Apache 2.0 + 帰属要件)、TabPFN-2.5/2.6モデル重みは非商用ライセンス
まだコメントはありません。