インターネット検索のコツ
(gwern.net)-
インターネットで論文、ウェブページ、本などの情報を検索するための基本から主要なコツまでを整理
-
個人的な基準では、個人サイトの中で最高だと思う Gwern Branwen* が書いた文章。一部だけを移したものなので、ぜひ原文もご覧ください
[ 論文検索 ]
-
検索文法:ブール演算子、主要な Google コマンド(ダブルクォーテーションは完全一致、ハイフンは否定/除外、
site:は特定ウェブサイト検索) -
高速検索のためのホットキー設定:AutoHotkey, Quicksilver, XMonad など
-
ウェブブラウザのショートカット:C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
-
Google Scholar で検索する際は HTML 表示を見る
-
論文タイトル検索のコツ
→ 検索結果を減らすためにタイトルを切り詰めたり、AND/OR や - などを使う
→ Year を追加/削除してみる..
→ Google の日付範囲を使う
→ site:archive.org を入れて Internet Archive を検索する
- 難しいケース
→ 逆引用(Reverse Citations):Google Scholar の "related articles" "cited by" を見る
→ 修士/博士学位論文は ProQuest
→ 逆画像検索:Google Images, TinEye, Yandex を利用
- ドメイン別検索のコツ
→ Twitter:Google にも引っかかるが、追加情報がわかるなら Twitter 高度検索も優秀(from:, to:, since:, until:, near:, url: ..)
→ 米国連邦裁判所:Pacer への登録が必要。有料($0.1/ページ)だが合計 $15 以下なら無料。Recap という公開ミラーもある。Recap ブラウザ拡張も提供
→ Wellcome 図書館:古い雑誌や本が多い。SEO がひどくて Google などでは検索しづらいが、よく探してみる価値あり
→ 古い雑誌:site:pdf-giant.net、教育関連の検索は ERIC( site:eric.ed.gov )
- Paywall への対処
→ 本や論文の場合は Libgen / Sci-Hub を使って回避可能。Z-Library では全文検索が可能
- 上のすべての方法でも入手できないとき、ほかの人に依頼できる場所
→ Subreddit:/r/scholar
→ Twitter:#icanhazpdf
→ Wikipedia Resource Request
→ LessWrong HelpDesk
- Full-Text Copy を見つけた後にやること
→ 信頼できないホストにはリンクしないこと:Libgen/Sci-Hub, Nber, Scribed, ResearchGate..
→ スキャン版なら gscan2pdf で編集 & OCR
→ メタデータ追加:ExifTool, pdftk
→ 可能なら公開ホスティングし、Wikipedia/Reddit にリンク共有
→ PDF リンクのコツ:URL の後ろに #page=N を付けるとページ指定が可能
- 上級
→ Archiver-Bot で検索履歴を自動アーカイブ
→ GCSE(Google Custom Search Engine) を作る
[ウェブページ]
-
もしタイトルがわかるならタイトルだけで検索
-
URL 検索時は不要なパラメータを削除する
-
Google 検索では
site:を使ってドメイン限定、日付限定 -
Google 以外の検索を使う
→ DuckDuckGo:Bangs 機能で外部サイト検索を直接利用(現在 13000 個を超える外部サイトをサポート)
→ Bing/Yandex も有用
- アーカイブを確認する:Internet Archive または Memento メタアーカイブ
→ IA はドメイン全体の URL 確認機能を提供。wayback_machine_downloader(Ruby)で全体をダウンロード可能
→ Google Reader 終了前に Archive Team が Google Reader のかなり多くの RSS をバックアップし、IA にホストしていた(WARC でも可能、最後にダウンロード&検索のコツあり)
→ archive.today:IA に近いミラー
→ どうしても無理な場合は Google Cache も利用可能
[デジタル書籍]
-
本は Google Scholar にはない。Google 検索を使う。
-
まず
filetype:pdfで検索し、その次に Libgen を使う -
IA にも本は多いが、SEO が弱いのか検索では見つけにくい。"本のタイトル site:archive.org"
→ IA にある本に DRM がかかっているなら Calibre の De-DRM プラグインが使える
- HathiTrust にも多くの書籍スキャンがある
→ 全体ダウンロードは不可能だが、wget を使った回避方法がある。この方法は Wellcome Library にも適用可能
[出版された本]
- Google Books または find-more-books.com で古書を検索
→ eBay & Amazon は中古本購入には向いていない。情報確認だけに使うこと
→ AbeBooks, Thrift Books, Better World Books, B&N などは購入に向いている
- 本をスキャンする:破壊型 vs 非破壊型や裁断道具、メタデータや PDF 作成のコツ
- Gwern Branwen はフリーランスの作家兼研究者です。個人ウェブサイト https://www.gwern.net/ を運営していて、本当に独特です
私の基準では個人ウェブページ/ブログの中でも最高の最高。特定のテーマを決めて、それを細かく掘り下げて整理し、公開するのが主な特技です。
→ GoodReads で調べた「人々が読みかけで挫折した本 Top 5」 https://ja.news.hada.io/topic?id=1231
1件のコメント
以前投稿された「開発者のための情報検索のコツ」もおすすめします。 https://ja.news.hada.io/topic?id=2932