2024年のAIスタートアップ向けデータ収集戦略

(press.airstreet.com)

31 ポイント投稿者 xguru 2024-04-29 | 1件のコメント | WhatsAppで共有

[ #1 大規模生成モデル(Large Generative Models) ]

LLMとLMMを活用した合成データ生成

Large Language Model(LLM)はテキスト出力を生成する一方、Large Multi-Modal Model(LMM)はテキスト、コード、画像など多様な形式の合成データを生成できる
実データが不足している、個人情報保護に敏感である、または収集・ラベリングコストが高い分野で特に広く使われている（例: NLP、コンピュータビジョン、自動運転システム開発など）
合成データは一般に実データを補完したり、ファインチューニング(fine-tuning)に使われたりし、全体を置き換える目的では使われない
どれほど精巧でも問題領域の近似値しか生成できず、過度に依存すると合成データ生成プロセスに存在する特性へモデルが過学習するリスクがある
合成データ生成方法
1. 自己改善(Self-improvement): モデルが指示、入力コンテキスト、応答を生成し、無効または既存データと類似しすぎる例はフィルタリングされ、残ったデータが元のモデルのファインチューニングに使われる
2. 蒸留(Distillation): より強力な教師モデルの知識を、性能は劣るがより効率的な生徒モデルへ伝える過程。合成データはしばしば不正確でも、instruction-tuningの過程に効果的に寄与しうる
Microsoftは主に他のLLMで生成された合成データで学習したPhiという一連の小型モデルを公開し、その多くが大半のフロンティアモデルより優れた性能を示した
Hugging Faceは、Microsoftが使った合成学習データセットのキュレーションに関する情報不足を受け、その再現を目指してCosmopediaを作成した

LLMを活用したデータラベリングとデータセット統合

最新のLLMは、人間のアノテーターと同等またはそれ以上の水準でテキストデータセットにラベルを付けられる
人間のアノテーターと異なり、LLMは疲労やバイアスなしに大規模データセットへ同じ注釈基準を一貫して適用できる
Segment Anythingのように大規模データセットで学習した大規模生成モデルは、semantic segmentationのようなタスクで従来使われてきた特化型の非生成コンピュータビジョンモデルより、ゼロショット能力でより高い性能を示すことが多い
LLMは、多様なデータソースを統合して統合データセットを作るデータセットスティッチング(Dataset Stitching)を通じて、利用可能な実データプールを拡張する用途にも使える

GraderとしてのLLM

人間のフィードバックからの強化学習(RLHF)は、GPT-3をチャットを通じたユーザーとの対話型インタラクション向けに最適化された画期的なシステムへとした中核的なファインチューニング技術だった
今では、人間の代わりにLLMを使ってフィードバックを提供する、AIフィードバックからの強化学習(RLAIF)というアプローチが登場している
RLAIFの主な利点は、人間を機械に置き換えることでスケーラビリティとコスト削減が可能になる点にある

[ #2 データラベリングプラットフォーム ]

初期にはAmazon Mechanical Turkのようなクラウドソーシングおよび業務アウトソーシングプラットフォームを活用し、低コストのオンライン労働力でデータラベリングやクレンジング作業を行っていた
最近では、V7、Scale AIなど、自動化されたデータラベリングおよび管理機能を提供するプラットフォームが発展し、人気を集めている
これらのプラットフォームは、コンプライアンスや品質保証の施策とともに、大規模データ需要を持つ企業がより効率的にスケールし、より高い一貫性を実現できるようにする

プラットフォーム別の特徴と新規プレイヤー

V7は医療画像のように高い専門性が求められる作業へ重点を置く傾向がある一方、Scaleは自動運転分野で成長し、防衛分野へ拡大した
Invisibleのような新規プレイヤーは、LLM特化ワークフロー（例: 教師ありファインチューニング、RLHF、人間評価、レッドチーミングなど）向けの専門人材需要に応えている
人気のあるデータラベリングサービスには、CVAT、Dataloop、Invisible、Labelbox、Scale AI、V7などがある

人間アノテーションデータの品質改善策

多くのプラットフォームはいまだにある程度人間のアノテーターへ依存しており、複雑で主観的かつ社会的関連性の高い領域でAI活用が広がるにつれ、出力品質評価により多くの努力が必要になっている
多数決、一致率、確率モデリングアプローチなどを使って、複数評価者の入力から真のラベルを推定し、信頼できない「スパマー」評価者を識別できる
評価者間の体系的な不一致を捉え、それを活用して学習を改善する技術（例: 不一致デコンボリューション、複数アノテーター・モデリングなど）がある
影響関数、学習中の予測変化の追跡などを通じて、誤ってラベル付けされたデータポイントを検出できる

[ #3 オープンデータセット ]

2016年以降、オープンデータ運動と、産業界・学界・政府間のデータ共有の価値認識により、オープンデータセットが急増した
オープンデータセットはほとんどの領域に存在するが、特にコンピュータビジョン、NLP、音声/オーディオ処理、ロボット制御、ナビゲーション分野でアクセスしやすい
これはコミュニティの取り組み（例: Hugging Face、PyTorch、TensorFlow、Kaggleなど）と、大企業による大規模データセット公開が組み合わさって発展してきた

オープンデータセット活用時の考慮事項

無料でベンチマークに役立つという利点がある一方、特有の考慮事項もある
センシティブまたは規制の多い分野では、オープンデータセットはより希少で古く、規模も小さい傾向がある
オープンデータの品質と最新性には大きなばらつきがあり、変化の速い分野では関連性の問題が生じうる
過度な利用は、人気のあるデータセットへの過剰依存によって、モデルがベンチマークでは高性能でも実運用では性能が落ちる過学習リスクを生む

有用なオープンデータセットのリソース

Amazon, Google, Microsoft などの大企業は、多様なオープンデータハブや検索エンジンを持っている
Hugging Faceは、関連ツールとともにすぐ使えるデータセットハブを作成した
Kaggleのデータセット検索機能
VisualData: コンピュータビジョンデータセット向けハブ
V7は 500件以上のオープンデータセット一覧を公開している

[ #4 シミュレーション環境 ]

シミュレーション環境は、AIモデルやエージェントが制御された環境で学習して合成データを生成し、実運用前にシステムをテストできるようにする
実データを補完し、現実では遭遇しにくい、またはコストが高いエッジケースを探索するうえで特に役立つ
これはシステムを安全に訓練し、現実世界で起こりうる無数の変数を考慮する必要があるロボティクスや自動運転車などの分野で特に人気がある

シミュレーション環境構築時の考慮事項

豊富で正確な物理モデリングが可能な3Dシミュレーションをゼロから作成して検証するには、かなりのリソースとインフラが必要になりうる
NVIDIAは、Omniverseという統合3Dグラフィックスおよび物理ベースワークフロープラットフォームを基盤とするシミュレーション環境を含む、強力なGPU加速ロボティクスプラットフォームISAACを構築した
コスト負担を減らすため、オープンソースのシミュレーション環境を活用できる
Epic GamesのUnreal Engineは、高忠実度のグラフィックス、現実的な物理シミュレーション、柔軟なプログラミングインターフェースなどにより、シミュレーション環境構築のための強力なツールとして定着している

活用事例とオープンソース環境

Applied Intuition: 自動運転システム開発者向けのシミュレーションおよび検証ソリューションを提供
Sereact: 倉庫におけるピックアンドパック自動化のため、空間的・物理的ニュアンスを理解できるようシミュレーション環境ベースのソフトウェアを開発
Wayve: 複数の4Dシミュレーション環境を構築した英国拠点の自動運転スタートアップ
自動運転分野: CARLA, LG SVL Simulator, AirSim など
ロボティクス分野: Gazebo, CoppeliaSim, PyBullet, MuJoCo など

[ #5 Web/書籍など他資料のスクレイピング ]

大量のテキスト、オーディオ、動画のスクレイピングは、基盤モデル開発の中核要素だった
大企業は独自のプロプライエタリシステムを使う一方、スタートアップは多様な既製品およびオープンソースツールを活用できる
Apache Nutchのような分散クローリングフレームワーク、PuppeteerやSeleniumのようなヘッドレスブラウザ、Beautiful Soupのようなパースライブラリ、LuminatiのようなプロキシおよびIP管理サービス、低コストで効果的なOCR技術などが発展してきた

データ品質と量のトレードオフ

ドメインとアプリケーションに応じて、データ品質と量の間のトレードオフは異なる
言語モデルは、十分な量があれば、比較的ノイズが多くキュレーションされていないデータからでも効果的に学習できる
一方コンピュータビジョンでは、小規模でも高品質なデータセットを画像変換（例: クロップ、回転、ノイズ追加など）で拡張し、良い結果を得られる

カリキュラム学習とデータセットキュレーション

カリキュラム学習は、単純な例から複雑な例へ移りながら、モデルにデータを意味のある順序で提示する学習戦略である
人間の学習方法を模倣し、モデルが難しい例に挑戦する前に良い初期パラメータを学習できるようにして、効率を高める

事例

Databricksの最近のSOTAオープンLLMであるDBRXは、これを活用してモデル品質を大きく改善した
Sync Labsは、比較的品質の低い大量の動画を使って、動画の口の動きを新しい音声に再同期できるモデルを学習させた
Metalwareは、専門教科書からスキャンした比較的小規模な画像セットとGPT-2を組み合わせて、ファームウェアエンジニア向けのコパイロットを作った

[ #6 著作権問題とライセンシングの可能性 ]

2016年以降のAIエコシステムの成熟は起業家にとって追い風だったが、追加の複雑さも生んだ
基盤モデル提供企業による大規模Webスクレイピングを受け、メディア企業、作家、アーティストらがさまざまな著作権訴訟を起こしている
これらの訴訟は現在、欧州と米国の裁判所システムで進行中であり、大企業（例: Meta、OpenAI）や、次第に確立されつつある研究所（例: Midjourney、Stability）を対象としている
これは、スタートアップがデータ収集方法に慎重であるべきことを強調している
もし企業側が敗訴した場合、学習データ内の著作権付き素材を特定してクリエイターへ補償するか、それらの成果物を破棄して最初からやり直さなければならない可能性がある
これを受け、一部企業はメディア組織と提携したり、コンテンツや音声の利用についてアーティストへ直接報酬を支払ったりするなど、クリエイターに配慮したデータ収集戦略を先回りして進めている

倫理的データソーシング認証制度の登場

元Stability幹部らが主導する、倫理的に調達された学習データに対する認証制度が登場しつつある
こうした認証制度はまだ初期段階だが、興味深いアプローチであり注目に値する

事例

ElevenLabs: 声優へのペイアウトと音声データパートナーシップ
Google: Gemini学習のためにRedditデータを利用できるようにする契約を締結
OpenAI: Shutterstockの画像・動画・音楽・メタデータライブラリでDALL-Eを学習させるためのパートナーシップと、Associated Pressのニュースアーカイブに関するライセンス契約

[ #7 ラベル付け済み大規模データセットの必要性低下 ]

2016年以降、教師なし学習と半教師あり学習技術が大きく進歩し、スタートアップは従来必須と考えられていた大規模ラベル付きデータセットなしでも強力なモデルを構築できるようになった
こうしたアプローチは2016年以前から研究者には知られていたが、近年はアクセシビリティ、精緻さ、実用性が大きく向上した
教師なし学習は、データに内在する統計的パターンと構造の学習に重点を置き、従来は大規模データセット探索（例: 教師なしクラスタリング）に有用で、現在ではLLM事前学習の中核となっている
半教師あり学習は、少量のラベル付きデータと大量のラベルなしデータを併用し、モデル性能の改善と向上に最も効果的である
対照学習やfew-shot learningのような手法によって、これらのアプローチをさらに強化できる
- 対照学習(Contrastive Learning)は、類似するデータポイントと類似しないデータポイントを区別することで、モデルが豊かな表現を学習できるようにし、コンピュータビジョンタスクに有用である（例: OpenAIのCLIP）
- Few-shot learningは、モデルがごく少数の例で新しいタスクへ適応できるようにする
元のスケーリング則論文は、より大きなモデルほどfew-shot learningに長けていることを示した
教師なし事前学習にはより大量のラベルなしデータが必要だが、この段階は、小規模な非生成モデルより少ないラベル付き例でダウンストリームタスクを解ける能力を与える

限界と考慮事項

ラベルなしデータを活用するモデルは、しばしばより複雑なアーキテクチャを必要とする
これは、ラベリングに費やすコストを計算コストへ振り替えることを意味する
実装とスケーリングがより難しいだけでなく、解釈可能性も低く、意思決定プロセスの理解が重要なセンシティブ分野では不利になりうる
こうした複雑さはより多くの計算資源を必要とし、教師あり学習手法より性能上限が低い場合も多い

[ #8 まだ早いもの ]

データマーケットプレイス

2016年以降、データの収集・保存・処理・共有が容易かつ低コストになったことで、いくつかのデータマーケットプレイスが生まれたが、この分野は大きく活性化していない
Datarade、Dawex、AWS Data Exchange、Snowflakeなどのマーケットプレイスやプラットフォームは、多様な一般的ユースケースにわたり画像、テキスト、音声、動画データを簡単に見つけられるようにしたが、これは主に顧客がデータをホスティングすることを選んだ際の付加価値提供を目的としている
これらのマーケットプレイスに加え、Appen、Scale AI、Invisible、Surgeなど、熟練したアウトソーシング人材を通じてカスタムデータセット作成やラベリングを提供する企業もある
しかし、専門化とプロプライエタリデータの競争優位に関する注意点は依然として有効であり、AIスタートアップがこれらのマーケットプレイスに大きく依存している証拠はほとんどない
初期には便利かもしれないが、クレンジング、カスタマイズ、フィルタリング、サブサンプリングには依然として相当な努力が必要である
多くのスタートアップは、最初から自社のプロプライエタリデータセットを構築し、それを競争優位として活用することを好む

ゲーミフィケーション

ゲーミフィケーションは、クラウドソーシングやシチズンサイエンスの文脈で、さまざまな企業や組織によりデータ収集戦略として検討されてきた（例: Folding@Home）
しかし、少数の事例を除けば、ゲーミフィケーションは比較的ニッチにとどまっている
ゲームのような競争に動機付けられ、かつ自由時間のある特定のユーザー層にしか訴求しないため、貢献者数の潜在的な上限は比較的低い
動機付けられた人々の間でも、提供されるデータの品質と正確性は依然として課題であり、特にエッジケース対応時には追加の検証と統制措置が必要になる

連合学習

2016年にGoogleが導入した連合学習(Federated learning, FL)は、データをローカルに保持したまま、複数の分散サーバーやモバイル端末でモデルを学習できるという可能性を示した
理論上は、医療や金融のようなセンシティブ分野で働くスタートアップが、従来のプライバシー問題を避けつつパートナーシップを通じて重要な学習データへアクセスできるようにする可能性がある
しかしFLは、責任、データ所有権、越境データ移転の問題により、もともと想定されていたセンシティブ分野での採用が阻害されてきた。また、モデルやデータセットが複雑化するにつれて、分散学習と集約に伴う計算および通信オーバーヘッドが重大なボトルネックとなっており、データ保有者が価値提案を保証するかなり複雑な技術を受け入れなければならないという認識も残っている

[ ## 結論 ]

2016年以降の大きな進展にもかかわらず、データ収集は依然としてスタートアップの悩みの種である
コミュニティや市場がこの問題を解決してくれそうにはない
多くのAIスタートアップは依然として設立時点でデータ収集の難しさに直面するだろうが、それは差別化の機会にもなりうる
創造的に正しい基盤を築くことは、依然として非常に実質的な競争優位の源泉である
データそのものは決してMoatにはなりえない
時間が経てば、競合は自社データを確保するか、同じ成果を達成するためのより効率的な技術を見つけることに成功するだろう
このことは、過去1年間で小型モデルと大型モデルの性能差が徐々に縮まってきたLLM評価に明確に表れている
優れたデータ収集は最終的に必要だが、それだけで十分ではない
キラープロダクトと真の顧客インサイトと並ぶ、成功のための一要素である

1件のコメント

thfvkfk 2024-04-29

ありがとうございます。ものすごい情報量ですね〜

2024年のAIスタートアップ向けデータ収集戦略

[ #1 大規模生成モデル(Large Generative Models) ]

LLMとLMMを活用した合成データ生成

LLMを活用したデータラベリングとデータセット統合

GraderとしてのLLM

[ #2 データラベリングプラットフォーム ]

プラットフォーム別の特徴と新規プレイヤー

人間アノテーションデータの品質改善策

[ #3 オープンデータセット ]

オープンデータセット活用時の考慮事項

有用なオープンデータセットのリソース

[ #4 シミュレーション環境 ]

シミュレーション環境構築時の考慮事項

活用事例とオープンソース環境

[ #5 Web/書籍など他資料のスクレイピング ]

データ品質と量のトレードオフ

カリキュラム学習とデータセットキュレーション

事例

[ #6 著作権問題とライセンシングの可能性 ]

倫理的データソーシング認証制度の登場

事例

[ #7 ラベル付け済み大規模データセットの必要性低下 ]

限界と考慮事項

[ #8 まだ早いもの ]

データマーケットプレイス

ゲーミフィケーション

連合学習

[ ## 結論 ]

関連記事

1件のコメント