- SafeDocs 全体を、LLMs、埋め込みモデル、XGBoost、そして線形回帰器を使って分類。
- 分類の過程でさまざまな実験と性能比較を行い、複数モデルの性能を評価。
紹介
- Common Crawl(CC)はインターネットをアーカイブするウェブアーカイブであり、科学者や研究者のためにインターネットを保存することに重点を置いている。
- CC は PDF ファイル全体を保存せず、最初の 1MB のみを保存するが、SafeDocs はそのような CC から PDF ファイルを再取得して元の PDF を保存している。
- SafeDocs データセットは約 840 万件の PDF ファイルで構成されており、展開時には 8TB に達する。
- これらの PDF を分類する試みを行った。
データセット作成
- PDF ファイルをさまざまなラベルに分類する過程を説明。
- FineWeb の技術ブログに着想を得て、教育コンテンツのサブセットを作成し、LLM を使ってラベルを生成した後、それを学習できる小型モデルを訓練。
- 100k 件のラベルを生成し、不均衡なラベルを調整して 59k 件のラベルに再構成。
モデル学習
アイデア 1: 埋め込みモデル
- 埋め込みモデルを使って、テキスト、画像、動画などのデータを n 次元空間のベクトルに変換。
- ファインチューニングによって分類性能を向上。
- 複数のモデルをテストした結果、
Alibaba-large-gte-1.5 モデルが最も高性能で、精度 59.14% を記録。
アイデア 2: XGBoost
- XGBoost は表形式データで最高クラスの性能を誇るモデルで、単純な二値分類器を複数学習させて分類問題を解く。
- この方法で精度 83.97% を達成。
アイデア 3: TFIDF
- TFIDF はテキスト内の特定の単語が文書中でどれほど重要かを計算する方法で、基本的な NLP 手法を使ってモデルを学習。
- 精度 67.52% を記録。
アイデア 4: ディープラーニングへ回帰
- ディープラーニング分類器を使い、最低 70% の精度を目標とした。
- さらに多くのラベルを生成し、
gte-large モデルで実験した結果、精度 69.22% を達成。
実験結果
- 最終的に XGBoost 埋め込みモデルが最高精度 85.26% を記録。
- さまざまなモデルの性能を比較した結果、XGBoost が最も優れた性能を示した。
コーパス全体の分類
- 生成したモデルを使って PDF データ全体を分類し、その結果を可視化。
- PCA と UMAP を使って分類結果を視覚的に表現。
結論
- ディープラーニングモデルの性能は期待に届かなかったものの、全体として有意義な成果を達成。
- PDF のような複合データを使う大規模データセットは今後さらに増えていくと予想される。
- データセットとコードを公開し、より良い結果を得られる機会を提供。
GN⁺の意見
- このプロジェクトは、大規模データセットの分類問題において多様なアプローチを試した好例である。
- XGBoost のような従来型の機械学習手法が、今なお非常に効果的でありうることを示している。
- ディープラーニングモデルの性能向上には、より多くのデータと GPU リソースが必要だった可能性がある。
- PDF のような複合データの処理方法について、さらなる研究と実験が必要である。
- このプロジェクトは、研究や開発に関心のある人々にとって非常に有用な参考資料になりうる。
まだコメントはありません。