35 ポイント 投稿者 xguru 2021-04-26 | 1件のコメント | WhatsAppで共有
  • インターネットで論文、ウェブページ、本などの情報を検索するための基本から主要なコツまでを整理

  • 個人的な基準では、個人サイトの中で最高だと思う Gwern Branwen* が書いた文章。一部だけを移したものなので、ぜひ原文もご覧ください

[ 論文検索 ]

  • 検索文法:ブール演算子、主要な Google コマンド(ダブルクォーテーションは完全一致、ハイフンは否定/除外、site: は特定ウェブサイト検索)

  • 高速検索のためのホットキー設定:AutoHotkey, Quicksilver, XMonad など

  • ウェブブラウザのショートカット:C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]

  • Google Scholar で検索する際は HTML 表示を見る

  • 論文タイトル検索のコツ

→ 検索結果を減らすためにタイトルを切り詰めたり、AND/OR や - などを使う

→ Year を追加/削除してみる..

→ Google の日付範囲を使う

site:archive.org を入れて Internet Archive を検索する

  • 難しいケース

→ 逆引用(Reverse Citations):Google Scholar の "related articles" "cited by" を見る

→ 修士/博士学位論文は ProQuest

→ 逆画像検索:Google Images, TinEye, Yandex を利用

  • ドメイン別検索のコツ

→ Twitter:Google にも引っかかるが、追加情報がわかるなら Twitter 高度検索も優秀(from:, to:, since:, until:, near:, url: ..)

→ 米国連邦裁判所:Pacer への登録が必要。有料($0.1/ページ)だが合計 $15 以下なら無料。Recap という公開ミラーもある。Recap ブラウザ拡張も提供

→ Wellcome 図書館:古い雑誌や本が多い。SEO がひどくて Google などでは検索しづらいが、よく探してみる価値あり

→ 古い雑誌:site:pdf-giant.net、教育関連の検索は ERIC( site:eric.ed.gov

  • Paywall への対処

→ 本や論文の場合は Libgen / Sci-Hub を使って回避可能。Z-Library では全文検索が可能

  • 上のすべての方法でも入手できないとき、ほかの人に依頼できる場所

→ Subreddit:/r/scholar

→ Twitter:#icanhazpdf

→ Wikipedia Resource Request

→ LessWrong HelpDesk

  • Full-Text Copy を見つけた後にやること

→ 信頼できないホストにはリンクしないこと:Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

→ スキャン版なら gscan2pdf で編集 & OCR

→ メタデータ追加:ExifTool, pdftk

→ 可能なら公開ホスティングし、Wikipedia/Reddit にリンク共有

→ PDF リンクのコツ:URL の後ろに #page=N を付けるとページ指定が可能

  • 上級

→ Archiver-Bot で検索履歴を自動アーカイブ

→ GCSE(Google Custom Search Engine) を作る

[ウェブページ]

  • もしタイトルがわかるならタイトルだけで検索

  • URL 検索時は不要なパラメータを削除する

  • Google 検索では site: を使ってドメイン限定、日付限定

  • Google 以外の検索を使う

→ DuckDuckGo:Bangs 機能で外部サイト検索を直接利用(現在 13000 個を超える外部サイトをサポート)

→ Bing/Yandex も有用

  • アーカイブを確認する:Internet Archive または Memento メタアーカイブ

→ IA はドメイン全体の URL 確認機能を提供。wayback_machine_downloader(Ruby)で全体をダウンロード可能

→ Google Reader 終了前に Archive Team が Google Reader のかなり多くの RSS をバックアップし、IA にホストしていた(WARC でも可能、最後にダウンロード&検索のコツあり)

→ archive.today:IA に近いミラー

→ どうしても無理な場合は Google Cache も利用可能

[デジタル書籍]

  • 本は Google Scholar にはない。Google 検索を使う。

  • まず filetype:pdf で検索し、その次に Libgen を使う

  • IA にも本は多いが、SEO が弱いのか検索では見つけにくい。"本のタイトル site:archive.org"

→ IA にある本に DRM がかかっているなら Calibre の De-DRM プラグインが使える

  • HathiTrust にも多くの書籍スキャンがある

→ 全体ダウンロードは不可能だが、wget を使った回避方法がある。この方法は Wellcome Library にも適用可能

[出版された本]

  • Google Books または find-more-books.com で古書を検索

→ eBay & Amazon は中古本購入には向いていない。情報確認だけに使うこと

→ AbeBooks, Thrift Books, Better World Books, B&N などは購入に向いている

  • 本をスキャンする:破壊型 vs 非破壊型や裁断道具、メタデータや PDF 作成のコツ
  • Gwern Branwen はフリーランスの作家兼研究者です。個人ウェブサイト https://www.gwern.net/ を運営していて、本当に独特です

私の基準では個人ウェブページ/ブログの中でも最高の最高。特定のテーマを決めて、それを細かく掘り下げて整理し、公開するのが主な特技です。

→ GoodReads で調べた「人々が読みかけで挫折した本 Top 5」 https://ja.news.hada.io/topic?id=1231

1件のコメント

 
gguimoon 2021-04-28

以前投稿された「開発者のための情報検索のコツ」もおすすめします。 https://ja.news.hada.io/topic?id=2932