- セマンティックウェブはかつての Web 3.0 である。"Web 3.0" が「クリプトのようなもの」を意味する前は、「マシンリーダブル(Machine-Readable)なWebサイト」を意味していた
- セマンティックウェブという概念はもう使われていないと思っていたが、実際には現在きわめて広く採用されており、すでに Web 3.0 を使っていると言っても過言ではないほど
- Web 3.0 がすでに存在するなら、どこにあるのだろうか? その大半はマークアップの中に隠れている
JSON-LD を利用したブログ投稿
- HTML ページの
<head> に <script type="application/ld+json"> 要素を追加して、JSON-LD メタデータを含められる
- JSON-LD はセマンティックウェブのメタデータをエンコードする主要な形式である
- 例: BlogPosting タイプを使った説明
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "From Shell to Excel - with a little bit of HTTPS",
"url": "https://csvbase.com/blog/10",
"description": "Write once, read everywhere",
"author": {
"@type": "Person",
"name": "Cal Paterson",
"email": "cal@calpaterson.com",
"url": "https://calpaterson.com/about.html"
},
"image": "https://csvbase.com/blog-static/excel.png",
"datePublished": "2024-08-12",
"dateCreated": "2024-08-12",
"dateModified": "2024-08-12"
}
@ で始まるキーはメタデータ(メタ-メタデータ?)である
@context は名前空間を、@type はクラスの型を表す
- 残りのキーは BlogPosting タイプで許可される項目である
- キーの値は別の型にもなりうる(author キーの Person のように)
これで自分にどんなメリットがあるのか?
- 誰がこれを読むのか? 多くのボットが JSON-LD メタデータをパースしている
- セマンティックウェブのメタデータを含むブログ記事は、ソーシャルメディアサイトでリンクプレビューが表示されるなどしてクリック率を高める
- 検索エンジンのクローラがこのメタデータを使って、検索結果により多くの情報を表示する
- 自動化されたリンクアグリゲータがこのデータを利用してユーザーに投稿を見せる(Android がニュース画面で複数サイトを見せるようなもの)
- セマンティックウェブのメタデータは許可不要で、ベンダー中立である
これは難しいのか?
- いいえ、JSON-LD は非常に簡単である
- JSON-LD は、ページ内にすでにある情報をコンピュータが読めるように並べたものだ
- フロントエンドアプリを書けるなら、JSON-LD も簡単に理解できる
JSON-LD の他のタイプ
- BlogPosting のほかにも、Event、LocalBusiness、JobPosting、Product、Recipe などのタイプがある
- csvbase は Dataset タイプを使ってテーブルデータを説明している
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name": "stock-exchanges",
"url": "https://csvbase.com/meripaterson/stock-exchanges",
"isAccessibleForFree": true,
"distribution": [
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",
"encodingFormat": "text/csv",
"contentSize": "16222"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",
"encodingFormat": "application/parquet",
"contentSize": "10751"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",
"encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
"contentSize": "15500"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",
"encodingFormat": "application/x-jsonlines",
"contentSize": "38627"
}
],
"dateCreated": "2022-04-25T13:43:24.746075+01:00",
"dateModified": "2023-04-02T20:27:33.255648+01:00",
"maintainer": {
"@type": "Person",
"name": "meripaterson",
"url": "https://csvbase.com/meripaterson"
},
"description": "The world's stock exchanges...",
"mainEntity": {
"@type": "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
{"csvw:name": "Continent", "csvw:datatype": "string"},
{"csvw:name": "Country", "csvw:datatype": "string"},
{"csvw:name": "Name", "csvw:datatype": "string"},
{"csvw:name": "MIC", "csvw:datatype": "string"},
{"csvw:name": "Last changed", "csvw:datatype": "date"}
]
}
}
}
これらは本当に全部必要なのか? AI が全部解決してくれないのか?
- 大規模言語モデル(LLM)はしばしば誤りを犯す
- 正確性を確保するためにメタデータを提供することが重要である
- LLM を使うとコストが高くつき、Web ページを読むために GPU が必要になる
代替手段
- Open Graph Protocol: Facebook が作った標準で、主にコンテンツを説明する
- Microdata: シンプルだがパースしにくい
- Twitter Cards: Twitter 上でコンテンツをどう表示するかを説明する
- XML ベースの古い標準群: 図書館やアーカイブシステムで深くサポートされている
地味な技術(Boring technology)
- セマンティックウェブがこれほど Low-Key であることは非常に驚きで、多くのサイトがすでにこうしたメタデータを設定している
- 「セマンティックウェブはすでに広く普及しており、ただ勝利の瞬間がなかっただけだ」
GN⁺ のまとめ
- セマンティックウェブは、機械が読める Web サイトを作る技術であり、すでに広く使われている。
- JSON-LD はセマンティックウェブのメタデータをエンコードする主要な形式で、ブログ投稿、イベント、製品など多様なタイプをサポートする。
- セマンティックウェブのメタデータは、ソーシャルメディアや検索エンジンでのリンクプレビューや検索結果の改善に役立つ。
- AI を使ってメタデータを自動抽出する方法はコストが高く、正確ではない可能性がある。
- Open Graph Protocol、Microdata、Twitter Cards など、さまざまな代替手段が存在する。
4件のコメント
セマンティックWebの歴史と今日の位置づけについて気になる方には、このエッセイをおすすめします。
https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…
JSON-LDがセマンティックウェブのコア、あるいは中核技術だとは思いませんが、「セマンティックウェブはすでに広く普及しており、ただ決定的な勝利の瞬間がなかっただけだ」という言葉にはとても共感しますね…!
Hacker Newsの意見
Semantic Web標準の問題点
試行失敗の経験
JSON-LDとRSSの比較
LLMとSemantic Webの意味
Semantic Webの現状
重要概念の欠落
PDFのメタデータ
HTMLの重要性
AIとメタデータ
JSON-LDとSEO