セマンティックウェブはすでに広く採用されている

(csvbase.com)

14 ポイント投稿者 GN⁺ 2024-08-22 | 4件のコメント | WhatsAppで共有

セマンティックウェブはかつての Web 3.0 である。"Web 3.0" が「クリプトのようなもの」を意味する前は、「マシンリーダブル（Machine-Readable）なWebサイト」を意味していた
セマンティックウェブという概念はもう使われていないと思っていたが、実際には現在きわめて広く採用されており、すでに Web 3.0 を使っていると言っても過言ではないほど
Web 3.0 がすでに存在するなら、どこにあるのだろうか？その大半はマークアップの中に隠れている

JSON-LD を利用したブログ投稿

HTML ページの <head> に <script type="application/ld+json"> 要素を追加して、JSON-LD メタデータを含められる
JSON-LD はセマンティックウェブのメタデータをエンコードする主要な形式である
例: BlogPosting タイプを使った説明

{  
  "@context": "https://schema.org";,  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10";,  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html";  
  },  
  "image": "https://csvbase.com/blog-static/excel.png";,  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}

@ で始まるキーはメタデータ（メタ-メタデータ？）である
- @context は名前空間を、@type はクラスの型を表す
- 残りのキーは BlogPosting タイプで許可される項目である
キーの値は別の型にもなりうる（author キーの Person のように）

これで自分にどんなメリットがあるのか？

誰がこれを読むのか？多くのボットが JSON-LD メタデータをパースしている
セマンティックウェブのメタデータを含むブログ記事は、ソーシャルメディアサイトでリンクプレビューが表示されるなどしてクリック率を高める
検索エンジンのクローラがこのメタデータを使って、検索結果により多くの情報を表示する
自動化されたリンクアグリゲータがこのデータを利用してユーザーに投稿を見せる（Android がニュース画面で複数サイトを見せるようなもの）
セマンティックウェブのメタデータは許可不要で、ベンダー中立である

これは難しいのか？

いいえ、JSON-LD は非常に簡単である
- JSON-LD は、ページ内にすでにある情報をコンピュータが読めるように並べたものだ
フロントエンドアプリを書けるなら、JSON-LD も簡単に理解できる

JSON-LD の他のタイプ

BlogPosting のほかにも、Event、LocalBusiness、JobPosting、Product、Recipe などのタイプがある
csvbase は Dataset タイプを使ってテーブルデータを説明している

{  
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson";  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}

これらは本当に全部必要なのか？ AI が全部解決してくれないのか？

大規模言語モデル（LLM）はしばしば誤りを犯す
正確性を確保するためにメタデータを提供することが重要である
LLM を使うとコストが高くつき、Web ページを読むために GPU が必要になる

代替手段

Open Graph Protocol: Facebook が作った標準で、主にコンテンツを説明する
Microdata: シンプルだがパースしにくい
Twitter Cards: Twitter 上でコンテンツをどう表示するかを説明する
XML ベースの古い標準群: 図書館やアーカイブシステムで深くサポートされている

地味な技術（Boring technology）

セマンティックウェブがこれほど Low-Key であることは非常に驚きで、多くのサイトがすでにこうしたメタデータを設定している
「セマンティックウェブはすでに広く普及しており、ただ勝利の瞬間がなかっただけだ」

GN⁺ のまとめ

セマンティックウェブは、機械が読める Web サイトを作る技術であり、すでに広く使われている。
JSON-LD はセマンティックウェブのメタデータをエンコードする主要な形式で、ブログ投稿、イベント、製品など多様なタイプをサポートする。
セマンティックウェブのメタデータは、ソーシャルメディアや検索エンジンでのリンクプレビューや検索結果の改善に役立つ。
AI を使ってメタデータを自動抽出する方法はコストが高く、正確ではない可能性がある。
Open Graph Protocol、Microdata、Twitter Cards など、さまざまな代替手段が存在する。

4件のコメント

cometkim 2024-08-22

セマンティックWebの歴史と今日の位置づけについて気になる方には、このエッセイをおすすめします。

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

2024-08-22

[このコメントは非表示になっています。]

ipuris 2024-08-22

JSON-LDがセマンティックウェブのコア、あるいは中核技術だとは思いませんが、「セマンティックウェブはすでに広く普及しており、ただ決定的な勝利の瞬間がなかっただけだ」という言葉にはとても共感しますね…！

GN⁺ 2024-08-22

Hacker Newsの意見

Semantic Web標準の問題点
- 何十年もの間、キラーアプリケーションが不足している
- Webの質は悪化し、Wikipediaのような出来事もなかった
- ビジョンの不完全さ: SPARQLクエリとreasonerは有用だが、平均的なユーザーには認知コストが高い
- より良いWebのためには、依然としてSemantic Webの方向性が必要である
試行失敗の経験
- 試したサイトには「Poem」カテゴリがなかった
- 9年前から要望されていたが、解決されていない
JSON-LDとRSSの比較
- 「Googlers、JSON-LDはRSS並みの認知度を持ちうる」
- アプリやサービスを立ち上げて終了してくれたらよい、という意見
LLMとSemantic Webの意味
- 意味は出版社が定義すべきではない
- 平均的な出版社がLLMより正確に分類できるのか疑問
- SEOハックとブログスパムは、出版社が唯一の真実の源泉だったために起きた
- 意味を定義する問題を解決しなければならない
Semantic Webの現状
- Facebookとの統合をもって勝利を宣言するのは、Semantic Webの死を意味する
- OWLやその他の標準は、ページ内容に注釈を付けることが目的だった
- 著者、タイトル、写真、出版日の情報はほとんど無意味である
重要概念の欠落
- Linked Data、RDF、フェデレーションおよびWebクエリへの言及がない
- JSON-LDは単なるシリアライズ形式にすぎない
- Linked Data技術はデータの相互運用性と再利用性を高める
- LLMとLinked Dataは相互補完的である
PDFのメタデータ
- PDFのメタデータもSemantic Web標準に基づいている
- JSON-LDの代わりにRDFをXMLで記述する
HTMLの重要性
- HTMLが難しいため避けているように見える
- 意味はマークアップに隠れているのではなく、マークアップそのものである
AIとメタデータ
- AIがメタデータを置き換えられない理由は2つある
  - LLMは頻繁に間違う
  - GPU時間は高価である
- LLMはすでに99%の精度を示している
- 将来的には、テキストをLLMに通すことは大きな問題ではなくなるだろう
JSON-LDとSEO
- GoogleはJSON-LDをSEO改善のために5年以上推進してきた
- Open Graphプロトコルによって、関連するページメタデータの大半はすでに取得されている
- 追加作業をしてJSON-LDを生成する必要はない