社会的利益のためのデータサイエンス、10年間の教訓
(drivendata.co)- 2014年にDrivenDataを立ち上げた当時、データサイエンスを社会的善のために活用する取り組みはまだ初期段階にあった
- 当時のデータサイエンス技術は、NetflixやAmazonのような企業で主にマーケティングやコンテンツ推薦に使われており、非営利団体、NGO、ソーシャルエンタープライズ、政府サービスでの活用事例はほとんどなかった
- 初期の目標と背景
- データサイエンス人材はきわめて不足しており、採用コストも高く、こうした格差は社会課題に取り組む組織でより深刻だった
- Harvard Innovation Labを出発点として、社会課題のためのデータサイエンス技術格差を解消することを目指した
- データサイエンスとクラウドソーシングの先端技術を活用して、世界の主要な社会課題を解決することが目標だった
- 当時の見解を反映する2つの引用
- "ビッグデータを人道的意思決定に役立つものにすることは、ネットワーク時代の主要な課題であり機会でもある" – UN OCHA
- "私の世代の最高の才能が、人々に広告をクリックさせるために知恵を絞っている……本当にうんざりする。" – Jeff Hammerbacher, Facebook元データマネージャー
- この10年間の変化
- データサイエンスとAIを社会的インパクトに応用しようとする多様な試みが行われた
- 150件以上のプロジェクト、約80のパートナーと協業(世界銀行、ビル&メリンダ・ゲイツ財団、NASAなど)
- 75件以上のデータサイエンスコンペティションを開催し、470万ドル超の賞金を提供
- DrivenDataはこの10年間、データサイエンスによる社会的善を追求しながら、ベストプラクティスと教訓を蓄積してきた
- この節目に、何が効果的だったのか、何が依然として困難なのか、そしてより良い未来に向けた方向性をともに考える機会を持ちたい
10の主要な教訓プレビュー
データサイエンスがうまく機能した事例
- データサイエンスは社会課題に意味のある影響を与える
- 良いデータが良いソリューションを導く
- 取り組みは具体的な問題と人間のニーズに焦点を当てると最も成功しやすい
- 機械と人間の強みを組み合わせると最も効果的
- 学際的な視点と柔軟性が組織に利点をもたらす
依然として難しい点
- データサイエンスは反復的なR&D活動であり、社会セクターではそれへの投資が不足している
- データサイエンティストを採用し、十分に支援することが難しい
- オープンソースでは非開発者向けソリューションの開発が不足している
- 技術的誇張(hype wave)が過度に注目を集める
- データサイエンスとAIは倫理的含意が大きいが、倫理的利用を支えるツールや実践が後れを取っている
時代は変わりつつある
この10年間で、データおよびAI技術の進歩のスピードは驚くほど速かった。それを可能にした主な技術革新の要素は次のとおりである。
- コンピューティングとストレージ
- クラウドコンピューティングとストレージの拡大により、必要なリソースをより安価かつ容易に利用できるようになった
- GPUベースの実験からリアルタイムのモデル実行のためのスケーラブルなクラスタ配備まで、初期コストが低下した
- ディープラーニング
- ディープラーニングはデータサイエンスに革命的な変化をもたらした
- 敵対的生成ネットワーク(GAN)、トランスフォーマー、変分オートエンコーダ、グラフニューラルネットワークなど、有効なアーキテクチャが爆発的に増加した
- PyTorchとTensorFlowを中心とするエコシステムが発展し、ツール、ライブラリ、事前学習済みモデルなどが進歩の速度を加速させた
- 技術アクセスの大衆化
- データサイエンスは「21世紀で最もセクシーな職業」と呼ばれ、学習機会が爆発的に増加した
- MOOCs、ブートキャンプ、データコンペティションなどによって、より多くの人がデータサイエンスの基本スキルを習得した
- 生成AI
- 大規模言語モデル(LLM)の登場により、働き方が変化した
- 複雑な作業にかかる時間を短縮し、新たな可能性を開いた
- 生成AIが一時的な流行なのか実質的な革新なのかは検証が続いているが、AIが継続的に活用されることは明らかである
こうした技術的変化にもかかわらず、特定の技術を超えていくつかの共通パターンが観察されている。この記事では、この10年間でうまく機能した点と、依然として課題であり続ける点を中心に論じる。
データサイエンスがうまく機能した事例
データサイエンスは社会課題に意味のある影響を与える
- 10年前の状況
- データサイエンスツールの潜在力は明確だったが、社会的インパクトのための応用は限定的だった
- 当時の議論はいくつかの事例に限られ、将来の可能性についてのアイデア中心で進められていた
- 現在の進展
- 機械学習モデルは医療、自然資源管理など多様な分野で意思決定に影響を与えている
- データサイエンスは、有害なアオコ、持続不可能な漁業、気候変動による自然災害などの問題の管理に役立ち、金融包摂や野生生物保全にも貢献している
- 公共分野では、データ可視化が報道やメッセージ伝達の主要な手段として定着した
- 例: COVID-19拡散防止キャンペーン、WHOダッシュボード
- 衛星画像を活用した具体例
- イエメンでは衛星画像を使って作物の種類と気候リスクを分析し、世界銀行の食料安全保障プログラムに情報を提供した
- AIの科学的進歩への貢献
- AlphaFold: タンパク質構造予測モデル。数年かかっていた作業を数時間で実行し、科学者にすべてのタンパク質構造を無料で提供
- トランスフォーマーモデル: マルチモーダルミームにおけるヘイトスピーチ検出に応用
- 個体識別技術: 絶滅危惧種の追跡改善(クジラなど)および多様な種への拡張
- 社会セクターでの変化
- 2010年代半ばには、データ活用に関する議論は主に「インパクト測定」に集中していた
- 今では、データサイエンスツールが組織の運営方法を変え、新たな能力を与えることに重点が置かれている
- 現在の議論は、データサイエンスとAIが測定可能なものを超えて何が「できるか」に焦点を当てている
良いデータが良いソリューションを導き、データアクセス性は大きく改善している
- データの日常的役割の増大
- 購買、救急サービスの利用、病院への来院など、あらゆる活動でデータが生成される
- 家電製品、ウェアラブル機器、車両、携帯電話、アプリケーションなどが利用データを収集する
- センサーやカメラ技術の発展により、画像・動画データの活用が増えている
- データ活用の2段階
- データをデジタルで記録し、観測可能にする
- データを活用して学習し、パターンを発見する段階へと進化する
- データが基盤となるAIと機械学習
- より多く、より高品質なデータは、新たなパターン探索やアルゴリズム開発を支える
- 例: がん検出、Spotifyの推薦アルゴリズム、ChatGPTの学習データ
- Monica Rogatiのデータサイエンス階層構造
- データサイエンスの高度な機能には強力なデータ基盤が必要である
- データインフラへの賢明な投資が、上位機能実装の土台となる
- 社会的価値のためのデータ活用
- 政府や大規模機関が公共データの公開を拡大している
- DrivenDataが活用したデータの種類:
- 気象データ、交通データ、OpenStreetMapデータ: 航空交通計画、災害レジリエンス支援
- 衛星画像: 洪水範囲のマッピング、森林バイオマス推定
- モバイル取引データ: 金融行動と態度の分析
- 調査データ: 大規模な意見と行動のインサイト
- 音声録音: 児童の識字レベルの分類
- 高解像度画像: 黒色腫再発の可能性予測
- テキストデータ: 医師所見書の臨床概念の自動分析
- データアクセス性と活用可能性の重要性
- データは単に公開されるだけでは十分ではない
- 機械可読形式、明確なドキュメント、ユースケースが提供されると、参加と活用度が高まる
- 多くの組織はデータ収集に投資しているが、それを活用するための追加投資はおろそかにしがちである
- データの文書化と応用事例は、チャレンジ賞金に劣らず重要な役割を果たす
取り組みは具体的な問題と人間のニーズに焦点を当てると最も成功しやすい
- 技術中心アプローチの落とし穴
- 社会的インパクトを目指す組織は、しばしば最新の技術トレンドに追いつこうとする
- 「ビッグデータ」やAIツールは万能の解決策のように見えるが、実際には具体的な問題解決に焦点を当てたときに効果を発揮する
- 成功するプロジェクト設計の核心
- 特定のユーザーと課題を定義し、それを解決できる測定可能な目標を設定する
- 人間中心設計のツールを活用して人々が「望むもの」を把握し、技術的に「可能なこと」を超えたソリューションを開発する
- 具体例
- 藻類ブルーム検知(CyFi)
- NASAと協力し、衛星画像を通じて有害なシアノバクテリアの藻類ブルームを検知
- 水管理者が藻類ブルームの状況を正確に評価し、資源配分を効率的に行えるよう支援
- 野生動物識別(Zamba)
- Max Planck研究所と協力し、カメラトラップのデータを活用した動物自動識別ツールを開発
- 研究者のフィードバックを反映してUIを改善したZamba Cloudにより、使いやすさを向上
- 藻類ブルーム検知(CyFi)
- ユーザー視点の重要性
- 問題定義
- ユーザーインタビューと意見収集を通じて、問題と要件を明確に理解する
- データポイントの背後にある人間的な視点を反映する
- ソリューション提供
- ユーザーがソリューションを効果的に活用し、その利点を理解できるようにするため、UI/UXテストと明確なコミュニケーションが必要
- モデルの強みと限界を直感的に把握できるよう支援し、実際の事例を通じて活用方法を説明する
- 問題定義
- 結論
- データサイエンティストの役割は、技術的能力と社会的ニーズをつなぐこと
- 最新技術にとらわれず、問題解決と実質的な成果に焦点を当てたプロジェクトが最も効果的である
機械と人間の強みを組み合わせたとき、ソリューションは最も効果的になる
- AIへの誇張された期待の危険性
- データサイエンスのモデルやAIは万能ではなく、どのモデルにもある程度の限界がある
- 単にAIを導入するだけでは成功は保証されない
- 最適なソリューションは、機械と人間の強みを組み合わせたシステムから生まれる
- Zambaツールの事例
- Zambaは、野生動物カメラトラップ映像に動物がいるかどうかを確率的に予測する
- モデルは時に誤ることがあるが、提示される確率によって効率的なレビュー戦略を立てられる
- 例: チンパンジーが映っている可能性の高い映像から確認したり、空の映像と見なすための確率しきい値を設定したりできる
- その結果、全映像の5%未満を確認するだけで、85%のチンパンジー映像を特定できる
- 機械と人間の協働の成果
- 乳がんAIスクリーニングの事例: 放射線科医とAIが協働した場合、それぞれ単独よりも高い精度を達成
- AIの解釈可能性と説明可能性の重要性: 人がAIの結果を評価し、文脈に統合できる情報を提供する
- 例: クジラ識別コンペティションで、モデルが個々のクジラをマッチングする特徴の可視化を提供
- 生成AIにおける類似パターン
- ChatGPTのような有用なツールの発展には、人間からのフィードバックが不可欠
- フィードバックデータを通じて、モデルがますます難しいケースを学習できるよう改善できる
- エラーのコストと改善点の評価
- 次の2つの問いでシステム設計を改善する:
- 「完璧なモデルがあるなら、それをどう使うか?」
- 「そのモデルがときどき間違えるなら、どう対処するか?」
- システムが許容できる誤りの限界と、人間によるレビューが必要な部分を把握する
- 次の2つの問いでシステム設計を改善する:
- 組織の教訓
- 2021年のオランダ政府の事例: 不適切なアルゴリズムにより、2万6,000世帯が社会保障給付の不正受給で誤って告発された
- 適切な人間のレビューなしにアルゴリズムへ依存することは、高い社会的コストを招く
- 逆に、アルゴリズムと人間の強みを組み合わせれば、効率性と有効性を最大化できる
学際的な視点と柔軟性が組織を助ける
- 多様な分野にまたがるプロジェクト経験
- 金融包摂、気候アクション、ヘルスケアなど多様な分野を扱い、学際的な視点の利点を確認
- ある文脈での機械学習パターンを、別の分野へ拡張して適用できる
- 例: ケルプ森林保全のためのコンピュータビジョンモデルと、子宮頸部生検病変検出のためのモデル間の応用
- アプローチの柔軟性
- 農作物害虫の早期発見と、履歴書からのスキル抽出といった異なる問題も、固有表現認識(NER)に基づいている
- 既存アプローチの教訓と経験を活用し、別の問題へ低コストで適用できる
- 具体例
- WhatsAppメッセージ内の農作物、害虫、病害、化学物質を認識する自然言語処理アプローチ
- 小規模農家が新たな傾向を把握し、科学に基づく助言を改善できるよう支援
- 専門性とユーザー視点のバランス
- ドメイン専門家との協力を通じて、課題に適した文脈を確保する
- データサイエンスの過程にユーザー視点を含め、適切なソリューションを設計する
- 「取り組む価値のある仕事」を見極める
- 技術的専門性だけでは不十分であり、共感、コミュニケーション、好奇心、柔軟性が必要
- 機械学習が価値を加えられる領域をブレインストーミングし、そのアプローチが誰のためのもので、どのように使われるのかを深く理解する
- 組織ごとの多様なニーズへの対応
- 探索的研究からプロトタイピング、本番運用段階まで、組織ごとに要求は異なる
- 大規模なデータ提供組織(Candid、NASAなど)から、データシステムを初めて構築する組織まで、多様なパートナーと協力
- 技術の適合性を保ちつつ、豊富な経験から柔軟性を引き出すことが重要
依然として難しい部分
データサイエンスは反復的であり、社会セクターはR&Dへの投資が不足している
- R&Dの本質と価値
- 研究開発は学習プロセスであり、資本投資、実験、振り返り、失敗を引き受ける意思が必要
- 確実な方法や短期的アプローチでは、社会セクターで必要とされる問題の範囲を解決しにくいという限界がある
- 長期的な投資と非線形のイノベーションが主要な成果を生み出す
- 社会セクターにおけるR&D投資不足
- 2022年のNSF調査によると、大規模な非営利団体の94%がR&D活動をまったく行っていない
- データサイエンスが主としてR&D活動であるにもかかわらず、この分野への投資は不十分
- データサイエンスの反復的特性
- データサイエンスは、最適な結果を生み出し、サービス効率を改善するために、反復的な学習とフィードバックループを活用する
- ハーバードのデータサイエンス課程やCRISP-DM(データマイニング標準プロセス)のように、反復性を重視するフレームワークを活用
- 人間中心のデータサイエンスの重要性
- 学習プロセスは効果的なソリューション設計を中心に進められ、反復可能なイノベーションフレームワークと結びつく
- 人間中心設計を通じて、実際のニーズとソリューションの結び付きを強化する
- 民間企業のR&D成功事例
- 民間企業はR&Dプロセスを通じて、データ活用の価値を明確に認識している
- 最近のAIイノベーションの事例は、継続的なR&D投資がなければ実現しなかった成果である
- 結論
- データR&Dプロジェクトの初期結果には不確実性があるが、データから価値を生み出すプロセス自体は実証された方法論である
- R&Dへの継続的かつ長期的な投資は、イノベーションを加速し、社会セクターの課題を解決するうえで不可欠である
データサイエンティストを採用し支援することは難しく、1人で働くデータサイエンティストの満足度は低い
- 組織の観点から見た課題
- 採用
- 既存のデータサイエンティストがいない状態では、適切な候補者を見極めて評価することが難しい
- 「データサイエンティスト」という用語は多様なスキルや経験を含み、定義が曖昧
- 人材の獲得と維持
- データサイエンティストに対する需要が高く、競争の激しい採用市場が形成されている
- 社会課題の解決という動機付け要素に加え、興味深い技術的業務、競争力のある給与、専門性を伸ばす機会を提供する必要がある
- 初期段階の採用では、これらの要素を備えることがさらに難しい
- 管理と支援
- 問題の範囲を明確に定義し、方向性、インフラ、データを提供してこそ、データサイエンティストは生産性を維持できる
- 技術的な背景が不足していると、作業の難易度を過小評価または過大評価しやすい
- 採用
- 開発者の観点から見た課題
- 学習と成長
- データサイエンスは急速に進化する分野であり、チーム内で学び成長する機会が重要
- コードレビュー、モデルへのフィードバック、作業負荷の分担が難しい環境では、成長の機会が制限される
- 方向性と支援の不足
- 業務が十分に支援されないと、データサイエンティストの満足度と生産性は低下する
- 仕事の楽しさ
- 同僚と問題を議論し解決する過程が、仕事の満足度を高める
- 外部ネットワークでこれを補うこともできるが、組織内での協力のほうがより効率的
- 学習と成長
- 変化の兆し
- 近年、ソーシャルセクターの組織で自前のデータチームを編成する事例が増えている
- DrivenDataは、初期段階のデータサイエンティストやエンジニアの採用、オンボーディング、業務移行を支援するパートナーとして関わっている
- 外部のデータサイエンス専門チームと協力して柔軟な能力を提供する方式は、組織とデータサイエンティストの双方にとって有利
- 今後の見通し
- 一部の組織はデータチーム構築に成功し始めているが、データサイエンスのスキルに対する需要は依然として高い
- データチームをゼロから構築する課題は今後も続くと見込まれる
オープンソースは非開発者向けのソリューションを十分に開発していない
- オープンソースの限界
- オープンソースソフトウェアは、開発者コミュニティがそのままユーザーでもあることが多いため、効果的に発展しやすい
- 貢献者は、自分たちが使うツールを改善するために動機付けられる
- しかし、非開発者や非専門家を対象とするツールでは、このような動機は働きにくい
- 非専門家向けツールの課題
- データサイエンスプロジェクトでは、非開発者向けの方法論やツールを開発することが多い
- オープンソースとして公開しても、継続的な投資と開発が行われなければ、プロジェクトは停滞または中断してしまう
- 実際に成功するソリューションへと発展させるには、プロトタイプ段階の後に追加開発と現実的なパイロットテストが必要
- 具体例: Concept to Clinic
- 2017〜18年、AIを活用して放射線技師によるCTスキャン処理を支援するオープンアプリケーションを開発
- 貢献を促すため、貢献者にポイントと金銭的報酬を提供する構造化されたインセンティブ制度を導入
- このようなアプローチがなければ、プロジェクトの開発は不可能だった可能性が高い
- 持続可能なオープンソース成功の要件
- 単にオープンソースとして公開するだけでは、長期的な影響力は保証できない
- プロトタイプからエンドユーザー向けソリューションへ発展させるには、明確なロードマップと継続的な資金支援が必要
- 重要なアプリケーションを開発する際、オープンソースは道のりの一部にすぎず、最終目標であってはならない
技術的な誇大宣伝(hype wave)が過度に注目される
- ソーシャルセクターと技術革新
- ソーシャルセクターは、過去10年間にわたって新たな技術革新の波と密接に結び付いてきた
- 組織は限られた資源の中で効率を高めようとし、新しい技術を導入したい誘惑に駆られる
- 最新の技術動向を追わなければ取り残されるという圧力から、戦略を頻繁に変更することもある
- 誇大化された技術導入の問題点
- 技術的な誇大宣伝の中から、本質的なイノベーション要素を選び出すのは難しい
- 技術導入が過剰な期待と不十分な実行につながるケースは多い
- 例:
- ブロックチェーン: 高い期待に比べ、ソーシャルセクターでの実質的な恩恵はわずかだった
- モバイルアプリ: 必ずしも必要でない場合でも「必須」とする圧力により、非効率なコスト支出が生じた
- 専門技術組織の重要性
- 技術的な誇大宣伝に効率よく対処できる技術専門組織が、最も高い成果を上げている
- DrivenDataは、DataKind、DSSG Fellowship、Delta Analyticsなどと協力し、技術的専門性を活用している
- しかし、このような専門家グループであっても、過去の技術的な誇大宣伝から得た教訓を体系的に蓄積するのは難しい
- 必要な変化: 技術的な誇大宣伝に対処する「防波堤」
- 過剰な期待から実質的なイノベーションを切り分け、重要な進展を見極める能力が必要
- 最先端技術への理解とソーシャルセクターへの深い洞察を兼ね備えた技術リーダーシップが不可欠
- 現在はそのようなリーダーシップとエコシステムが不足しており、それを通じて持続的で成熟したアプローチを築く必要がある
- AIのような最新技術への戦略的アプローチ
- AIの潜在力は膨大だが、単なる熱狂ではなく慎重な戦略と深い専門性が求められる
- データに基づく堅固な基盤を構築しなければ、技術的な誇大宣伝が繰り返される非効率なサイクルに陥る危険がある
- 根本的な投資と計画がなければ、ソーシャルセクターの技術革新が真の成果を生み出すのは難しい
データサイエンスとAIは倫理的含意が大きい一方で、急速な導入がそれを支えるツールや実践を追い越している
- データサイエンスとAIの拡大、そして倫理的重要性
- データサイエンスと機械学習は、医療、災害対応、刑事判決など多様な分野に統合されている
- 誤った活用によって生じるリスクは、以前よりはるかに大きくなっている
- 倫理的配慮が不足している現実
- データサイエンティストは、モデルやパイプラインの倫理的含意を理解する独自の視点を持っている
- しかし、そのような視点がデータサイエンスプロジェクトのライフサイクルに統合されないことが多い
- 倫理的トレードオフを扱うためのオープンソースチェックリストの開発
- 倫理的トレードオフを議論できるよう、データサイエンスのワークフローに統合
- 主な原則:
- 倫理的な意思決定は、特定の文脈で最も重要なトレードオフを認識し、責任ある進行と被害の最小化を目指すべき
- データ収集、保存、分析、モデリング、デプロイなど、プロジェクトの全段階で倫理的問題が発生する
- 倫理的議論は、切迫したスケジュールや要求によって、しばしば優先順位を下げられる
- これを防ぐには、倫理的な問いをワークフローの他の側面に組み込み、意図的に時間を割り当てる必要がある
- アルゴリズムの公平性とバイアス緩和
- バイアスのあるデータを学習したモデルは不平等を再生産するため、それを特定して緩和しようとする技術が開発されている
- 例: Wellcome Trustと協力し、心理的ストレス予測モデルで公平性を考慮したバイアス緩和の事例を作成
- 定量化された公平性指標を通じてバイアスを分析し、緩和方法を提供
- AI時代における倫理的配慮の重要性
- AIの急速な拡大と同時に、企業はコスト削減のため責任あるAIチームを解体している
- ソーシャルセクターでは受益者に対する責任感が強く、倫理的失敗の代償はさらに大きい
- 倫理的実践を強化しなければ、AI導入がより大きな問題を引き起こす危険がある
- 結論
- AI導入を支える倫理的ツールと実践の構築は、これまで以上に重要
- 技術を責任を持って活用することで、ソーシャルセクターにおける信頼と持続可能性を確保しなければならない
今後の展望
- データサイエンスの変化と機会
- 過去10年間、データサイエンスは社会セクターにおいて重要な変化を牽引し、成功と課題の両方を経験してきた
- データとAIの潜在力に対する認識は高まったが、依然として解決すべき大きな問いが残っている:
- 継続的な技術進歩を、最大の社会課題にどのように実質的に適用するのか?
- 恩恵が一部の大企業にのみ集中しないよう、どのように保証するのか?
- 自然と人類のために責任ある技術導入をどのように実現するのか?
- 経験から得た教訓の重要性
- 過去の経験から得た教訓に基づく取り組みが、最も大きな成果を生み出してきた
- DrivenDataは、データとAIを社会的善のために活用するパートナー、クライアント、開発者コミュニティの一員であることを誇りに思っている
- 類似のテーマに関心がある、あるいは追加のアイデアがあれば、共有を歓迎する
- 未来への期待
- 過去10年が目覚ましいものだったように、これからの10年はさらに大きな変化をもたらすと見込まれる
- やるべきことは多く、学ぶべきことも多い
- こうした挑戦に立ち向かい、新たな可能性を模索し、より良い社会的インパクトを生み出す未来が期待される
1件のコメント
「私の世代で最も優秀な人材たちが、人々に広告をクリックさせるために知恵を絞っている……本当にうんざりする。」
本当に考えてみると、そうですね。