インターネット検索のコツ

(gwern.net)

35 ポイント投稿者 xguru 2021-04-26 | 1件のコメント | WhatsAppで共有

インターネットで論文、ウェブページ、本などの情報を検索するための基本から主要なコツまでを整理
個人的な基準では、個人サイトの中で最高だと思う Gwern Branwen* が書いた文章。一部だけを移したものなので、ぜひ原文もご覧ください

[ 論文検索 ]

検索文法：ブール演算子、主要な Google コマンド（ダブルクォーテーションは完全一致、ハイフンは否定/除外、site: は特定ウェブサイト検索）
高速検索のためのホットキー設定：AutoHotkey, Quicksilver, XMonad など
ウェブブラウザのショートカット：C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
Google Scholar で検索する際は HTML 表示を見る
論文タイトル検索のコツ

→ 検索結果を減らすためにタイトルを切り詰めたり、AND/OR や - などを使う

→ Year を追加/削除してみる..

→ Google の日付範囲を使う

→ site:archive.org を入れて Internet Archive を検索する

難しいケース

→ 逆引用（Reverse Citations）：Google Scholar の "related articles" "cited by" を見る

→ 修士/博士学位論文は ProQuest

→ 逆画像検索：Google Images, TinEye, Yandex を利用

ドメイン別検索のコツ

→ Twitter：Google にも引っかかるが、追加情報がわかるなら Twitter 高度検索も優秀（from:, to:, since:, until:, near:, url: ..）

→ 米国連邦裁判所：Pacer への登録が必要。有料（$0.1/ページ）だが合計 $15 以下なら無料。Recap という公開ミラーもある。Recap ブラウザ拡張も提供

→ Wellcome 図書館：古い雑誌や本が多い。SEO がひどくて Google などでは検索しづらいが、よく探してみる価値あり

→ 古い雑誌：site:pdf-giant.net、教育関連の検索は ERIC（ site:eric.ed.gov ）

Paywall への対処

→ 本や論文の場合は Libgen / Sci-Hub を使って回避可能。Z-Library では全文検索が可能

上のすべての方法でも入手できないとき、ほかの人に依頼できる場所

→ Subreddit：/r/scholar

→ Twitter：#icanhazpdf

→ Wikipedia Resource Request

→ LessWrong HelpDesk

Full-Text Copy を見つけた後にやること

→ 信頼できないホストにはリンクしないこと：Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

→ スキャン版なら gscan2pdf で編集 & OCR

→ メタデータ追加：ExifTool, pdftk

→ 可能なら公開ホスティングし、Wikipedia/Reddit にリンク共有

→ PDF リンクのコツ：URL の後ろに #page=N を付けるとページ指定が可能

上級

→ Archiver-Bot で検索履歴を自動アーカイブ

→ GCSE(Google Custom Search Engine) を作る

[ウェブページ]

もしタイトルがわかるならタイトルだけで検索
URL 検索時は不要なパラメータを削除する
Google 検索では site: を使ってドメイン限定、日付限定
Google 以外の検索を使う

→ DuckDuckGo：Bangs 機能で外部サイト検索を直接利用（現在 13000 個を超える外部サイトをサポート）

→ Bing/Yandex も有用

アーカイブを確認する：Internet Archive または Memento メタアーカイブ

→ IA はドメイン全体の URL 確認機能を提供。wayback_machine_downloader（Ruby）で全体をダウンロード可能

→ Google Reader 終了前に Archive Team が Google Reader のかなり多くの RSS をバックアップし、IA にホストしていた（WARC でも可能、最後にダウンロード&検索のコツあり）

→ archive.today：IA に近いミラー

→ どうしても無理な場合は Google Cache も利用可能

[デジタル書籍]

本は Google Scholar にはない。Google 検索を使う。
まず filetype:pdf で検索し、その次に Libgen を使う
IA にも本は多いが、SEO が弱いのか検索では見つけにくい。"本のタイトル site:archive.org"

→ IA にある本に DRM がかかっているなら Calibre の De-DRM プラグインが使える

HathiTrust にも多くの書籍スキャンがある

→ 全体ダウンロードは不可能だが、wget を使った回避方法がある。この方法は Wellcome Library にも適用可能

[出版された本]

Google Books または find-more-books.com で古書を検索

→ eBay & Amazon は中古本購入には向いていない。情報確認だけに使うこと

→ AbeBooks, Thrift Books, Better World Books, B&N などは購入に向いている

本をスキャンする：破壊型 vs 非破壊型や裁断道具、メタデータや PDF 作成のコツ

Gwern Branwen はフリーランスの作家兼研究者です。個人ウェブサイト https://www.gwern.net/ を運営していて、本当に独特です

私の基準では個人ウェブページ/ブログの中でも最高の最高。特定のテーマを決めて、それを細かく掘り下げて整理し、公開するのが主な特技です。

→ GoodReads で調べた「人々が読みかけで挫折した本 Top 5」 https://ja.news.hada.io/topic?id=1231

1件のコメント

gguimoon 2021-04-28

以前投稿された「開発者のための情報検索のコツ」もおすすめします。 https://ja.news.hada.io/topic?id=2932

インターネット検索のコツ

関連記事

1件のコメント