43 ポイント 投稿者 GN⁺ 2025-12-04 | 2件のコメント | WhatsAppで共有
  • Pythonベースのデータサイエンスの主要なツールと手法を扱うオンラインハンドブックで、内容全体がWebサイトとGitHubで公開されている
  • Jupyterノートブック形式で提供されるため、実習中心の学習が可能で、コードとテキストが一緒に含まれている
  • テキストはCC-BY-NC-NDライセンス、コード例はMITライセンスで配布されており、自由な非商用利用が可能
  • IPython、NumPy、Pandas、Matplotlib、Scikit-Learn など、データ分析と機械学習の中核ライブラリを体系的に扱っている
  • データサイエンスの入門者から実務者まで、Pythonエコシステムの標準的なワークフローを身につけるのに役立つ資料である

概要

  • このサイトには Jake VanderPlas の 『Python Data Science Handbook』 の全内容が収められている
    • 原書は O’Reilly から出版されており、Web版は無料で公開されている
    • すべての内容は GitHub リポジトリで Jupyter ノートブック形式として提供されている
  • テキストはCC-BY-NC-NDライセンス、コード例はMITライセンスで配布されている
    • 非商用利用とコードの再利用が可能
  • 読者が有用だと感じた場合は、原書の購入を通じて著者を支援できる

目次構成

  • 本書は全5つの主要章と付録で構成されている

第1章: IPython – 通常のPythonを超えて

  • IPython 環境の機能と使い方を説明
    • ヘルプシステム、キーボードショートカット、マジックコマンド、シェルコマンド連携などを含む
    • コード実行履歴、デバッグ、性能計測機能を扱う

第2章: NumPy入門

  • NumPy配列を使った数値計算の基礎を扱う
    • データ型、ブロードキャスティング、ブールマスク、ソート、構造化配列などを含む
    • 配列ベース演算と集計関数の活用方法を説明

第3章: Pandasによるデータ操作

  • Pandas の主要オブジェクトとデータ処理機能を扱う
    • インデックス、欠損値処理、グループ化、ピボットテーブル、時系列処理などを含む
    • eval()query() による高性能な演算機能も紹介

第4章: Matplotlibによる可視化

  • MatplotlibSeaborn を活用したデータ可視化の方法を説明
    • 折れ線グラフ、散布図、ヒストグラム、密度プロットなど多様なグラフ種類を含む
    • 凡例、カラーバー、スタイルシート、3Dグラフ、地理データ可視化などの高度な機能を扱う

第5章: 機械学習

  • Scikit-Learn を中心に、機械学習の基本概念とアルゴリズムを扱う
    • ハイパーパラメータ、モデル検証、特徴量エンジニアリングなどの主要な手順を含む
    • ナイーブベイズ、線形回帰、SVM、ランダムフォレスト、PCA、k平均、GMM などの主要モデルを説明
    • 顔認識パイプラインの例を通じて実際の応用事例を示す

付録: 図のコード

  • 本文で使われた 可視化コード をまとめて提供
    • 各図の再現や修正が可能

活用意義

  • データサイエンス学習者に Pythonエコシステムの統合的な理解 を提供する
  • 実習可能なノートブック形式により、教育・研究・プロトタイピング に活用できる
  • オープンソースライセンスで公開されており、継続的な拡張とコミュニティ貢献 がしやすい

2件のコメント

 
aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Pythonライブラリを活用したデータ分析
pandasを作ったウェス・マッキニーが書いた本ですが、データサイエンスの入門書としてこの本も良いです。私はこの本の第2版が最初に出たときに読んだのですが……今検索してみたら、第3版が出ていたんですね

 
GN⁺ 2025-12-04
Hacker Newsのコメント
  • Jake VanderPlas の Statistics for Hackers の講演が本当に好きだった
    発表資料を見る

    • 共有してくれてありがとう。確率ではなく頻度で考えることが、どれだけ誤りを減らすかを改めて思い出した
      たとえば、疾病の有病率が 1/10,000 で、検査の精度が 99% だったとしても、陽性結果が 99% の確率でその病気を意味するわけではない
  • こういう種類の本はいつも興味深い
    データ操作、可視化、機械学習など、さまざまなトピックを 広く浅く 扱っていて、それぞれのトピックだけでも一冊の本になり得る
    プログラミング教育と概念・理論の紹介のバランスを取るのは難しいが、この本は入門書として良いバランスを実現しているようだ

  • この本は 2017〜2018 年にデータサイエンスを始めたとき、本当に 火がついたように役立った
    Jake は素晴らしい教師だった

  • 今の時点で Pandas を選んでいるのは興味深い
    おそらく最新ツールよりも 一般的な概念の伝達 に重点を置いているのだと思う

    • もともと 2016 年に出版された本なので、まだ初版の可能性が高い
    • Pandas は今でも業界標準だと思う。Polars や Spark はデータエンジニアリングの性能に重点が置かれていて、データサイエンス全体を扱うにはあまり適していない
    • 本がかなり古いので、「今どき」という表現は当てはまらないかもしれない
    • Pandas の何が問題なのか、よく分からない
  • 最初の仕事で Kernel Density Estimation (KDE) 関連のブログを参考にしたが、とても役に立った
    それ以来、Jake の仕事が好きになった

  • この本のオンライン版は learningds.org で公開されている
    ライセンスは CC-BY-NC-ND

  • Pandas を嫌う理由がよく分からない
    完璧なツールではないが、うちのコードベースには数千行の Pandas コードがあり、本番バグ を起こしたことはほとんどない
    Pandas に 静的スキーマラッパーと型チェッカー を併用して、安定して運用している

    • 自作のスキーマラッパーなのか、それとも PyPI でおすすめできるパッケージがあるのか気になる
  • 彼は素晴らしい書き手で、ブログが懐かしい
    特に ピボットテーブル に関する記事が印象的だったが、その内容は今では本に含まれているようだ

    • 彼は Python 向け可視化ライブラリ Altair(Vega-Lite ベース)の作者でもある
      Altair 公式サイト で確認できる
  • この本は 8 年前に書かれたが、同じ著者による 第2版 が存在する

    • GitHub リポジトリ に第2版のノートブック版がある
      「Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…」と表記されている
      元のリンクの 2016 年版と比較できる
  • 2020〜2021 年にデータサイエンスを学びながら、最初から最後まで通読した数少ない本 のひとつだった
    今でもおすすめできる