- 2021年から2023年初頭まで、データ技術分野、とりわけ Modern Data Stack は技術産業の中でも最も活発で注目を集める領域だった
- 2023年末にChatGPTが登場すると関心はAIへ移り、データインフラに関する議論はやや埋もれた
- しかしAIが実際の業務フローに統合され始める中で、次の2点が明確になった:
- 複雑なAIワークフローでは データエンジニアリングの教訓 を積極的に活用する必要がある
- LLMが正しく機能するには、分析ワークフローで生成されたデータ にアクセスできなければならない
AIとデータインフラをつなぐ実際の接点
- LLMがどれほど賢くても、正確な情報にアクセスできなければ 正確な回答はできない
- 情報がRedditの投稿、社内文書、データウェアハウスなどに散在していると、LLMはそれにアクセスできない
- 良いニュースは、今では LLMが多様な情報ソースにアクセスできるようにするプロトコルや標準 が登場しつつあること
- ただし、どの情報を提供すべきか、その情報が正確か、アクセス権限をどう設定するかといった点は、依然として解くべき課題である
情報ソース別に見るLLM統合の利点と課題
-
LLMs + インターネット検索
- 利点: 公開Webデータを統合し、最新の現実世界の情報を容易に活用できる(例: 飲食店検索)
- 課題:
- SEO最適化されたコンテンツがLLMでもうまく機能してしまい、信頼性の低い情報が上位に表示 される
- 例: 「2025年の最高の枕」を検索しても信頼できる正解を見つけにくい → LLMでも同様
-
LLMs + 社内文書(Notion、Slackなど)
- 利点:
- 複雑な組織で、チーム間の協業情報、ポリシー、計画などをひと目で把握できる
- NotionAIのようなツールは、LLMの可能性をよく示す例である
- 課題:
- 文書が最新かどうか判断しにくい
- 同じ質問に対して矛盾する結果が出る可能性がある
- そのため文書そのものだけでなく、文書の信頼性に関するメタデータ も必要になる
-
LLMs + 構造化データとメトリクス
- 利点:
- 対話型インターフェースにより、SQLなしでも複雑なデータ分析が可能
- 慣れたデータを扱うときには、まるでスーパーパワーを得たような感覚 を与える
- 課題:
- 組織全体で一貫した定義を使っているか?
- 経営陣がその結果を信頼し、実際の意思決定に使えるか?
- アクセス制御とデータガバナンスは適切に設定されているか?
- Text-to-SQLは着実に進歩しているが、現実的な実行可能性と信頼性の確保 が課題である
LLMのための3つのデータ統合例
- たとえば、あるレストランチェーンのCEOが新しい地域への拡大を検討するとき、次の情報をすべて活用できる:
- 社内文書: 組織の戦略と計画を理解
- 構造化データ: 財務状況と顧客データを分析
- インターネット検索: 当該地域の市場情報とベンチマークを調査
- 理論上は非常に有用なアプローチだが、現実には複数のシステムをその場しのぎで接続する必要があり、小さなエラーひとつが全体の判断に影響しうる
Modern Data Stackの本当の価値
- AI登場直前に、データの中央集約、標準化、ガバナンスのためのModern Data Stackが流行したのは、単なる偶然ではない
- このインフラこそがLLM時代の基盤 だった
- Modern Data Stackは単なるダッシュボード構築を超え、一貫性があり信頼できるデータワークフローとインターフェースのためのプラットフォーム である
- 今やAIがこのエコシステムと相互作用し始めたことで、データインフラの重要性が再び浮き彫りになっている
今後のデータ実務者の役割
- データ実務者は今や単なるデータ分析を超えて、次の役割を担う:
- LLMが利用できる 信頼可能なデータ環境の構築
- ガバナンスとアクセス制御が適用されたシステムの設計
- AIシステム展開時の 安定性と信頼性の確保
- この分野には 大きな機会 と 重大な責任 が伴う
- 現在、多くの組織でLLMシステムが実務に適用されており、実質的な影響力を発揮できる時点 に来ている
まとめ
- Modern Data StackはAI時代でも有効なインフラであり、今まさに本格的にAIシステムと結びつき始めている
- 構造化データ、非構造化文書、現実世界の情報を統合したAIワークフローは、すでに実現可能であり、今後さらに高度化していく見込み
- これらのシステムを正しい方向で設計し接続することが、データコミュニティの使命 である
まだコメントはありません。