Pythonデータサイエンス・ハンドブック

(jakevdp.github.io)

43 ポイント投稿者 GN⁺ 2025-12-04 | 2件のコメント | WhatsAppで共有

Pythonベースのデータサイエンスの主要なツールと手法を扱うオンラインハンドブックで、内容全体がWebサイトとGitHubで公開されている
Jupyterノートブック形式で提供されるため、実習中心の学習が可能で、コードとテキストが一緒に含まれている
テキストはCC-BY-NC-NDライセンス、コード例はMITライセンスで配布されており、自由な非商用利用が可能
IPython、NumPy、Pandas、Matplotlib、Scikit-Learn など、データ分析と機械学習の中核ライブラリを体系的に扱っている
データサイエンスの入門者から実務者まで、Pythonエコシステムの標準的なワークフローを身につけるのに役立つ資料である

概要

このサイトには Jake VanderPlas の 『Python Data Science Handbook』 の全内容が収められている
- 原書は O’Reilly から出版されており、Web版は無料で公開されている
- すべての内容は GitHub リポジトリで Jupyter ノートブック形式として提供されている
テキストはCC-BY-NC-NDライセンス、コード例はMITライセンスで配布されている
- 非商用利用とコードの再利用が可能
読者が有用だと感じた場合は、原書の購入を通じて著者を支援できる

目次構成

本書は全5つの主要章と付録で構成されている

第1章: IPython – 通常のPythonを超えて

IPython 環境の機能と使い方を説明
- ヘルプシステム、キーボードショートカット、マジックコマンド、シェルコマンド連携などを含む
- コード実行履歴、デバッグ、性能計測機能を扱う

第2章: NumPy入門

NumPy配列を使った数値計算の基礎を扱う
- データ型、ブロードキャスティング、ブールマスク、ソート、構造化配列などを含む
- 配列ベース演算と集計関数の活用方法を説明

第3章: Pandasによるデータ操作

Pandas の主要オブジェクトとデータ処理機能を扱う
- インデックス、欠損値処理、グループ化、ピボットテーブル、時系列処理などを含む
- eval() と query() による高性能な演算機能も紹介

第4章: Matplotlibによる可視化

Matplotlib と Seaborn を活用したデータ可視化の方法を説明
- 折れ線グラフ、散布図、ヒストグラム、密度プロットなど多様なグラフ種類を含む
- 凡例、カラーバー、スタイルシート、3Dグラフ、地理データ可視化などの高度な機能を扱う

第5章: 機械学習

Scikit-Learn を中心に、機械学習の基本概念とアルゴリズムを扱う
- ハイパーパラメータ、モデル検証、特徴量エンジニアリングなどの主要な手順を含む
- ナイーブベイズ、線形回帰、SVM、ランダムフォレスト、PCA、k平均、GMM などの主要モデルを説明
- 顔認識パイプラインの例を通じて実際の応用事例を示す

付録: 図のコード

本文で使われた 可視化コード をまとめて提供
- 各図の再現や修正が可能

活用意義

データサイエンス学習者に Pythonエコシステムの統合的な理解 を提供する
実習可能なノートブック形式により、教育・研究・プロトタイピング に活用できる
オープンソースライセンスで公開されており、継続的な拡張とコミュニティ貢献 がしやすい

2件のコメント

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Pythonライブラリを活用したデータ分析
pandasを作ったウェス・マッキニーが書いた本ですが、データサイエンスの入門書としてこの本も良いです。私はこの本の第2版が最初に出たときに読んだのですが……今検索してみたら、第3版が出ていたんですね

GN⁺ 2025-12-04

Hacker Newsのコメント

Jake VanderPlas の Statistics for Hackers の講演が本当に好きだった
発表資料を見る
- 共有してくれてありがとう。確率ではなく頻度で考えることが、どれだけ誤りを減らすかを改めて思い出した
  たとえば、疾病の有病率が 1/10,000 で、検査の精度が 99% だったとしても、陽性結果が 99% の確率でその病気を意味するわけではない
こういう種類の本はいつも興味深い
データ操作、可視化、機械学習など、さまざまなトピックを 広く浅く 扱っていて、それぞれのトピックだけでも一冊の本になり得る
プログラミング教育と概念・理論の紹介のバランスを取るのは難しいが、この本は入門書として良いバランスを実現しているようだ
この本は 2017〜2018 年にデータサイエンスを始めたとき、本当に 火がついたように役立った
Jake は素晴らしい教師だった
今の時点で Pandas を選んでいるのは興味深い
おそらく最新ツールよりも 一般的な概念の伝達 に重点を置いているのだと思う
- もともと 2016 年に出版された本なので、まだ初版の可能性が高い
- Pandas は今でも業界標準だと思う。Polars や Spark はデータエンジニアリングの性能に重点が置かれていて、データサイエンス全体を扱うにはあまり適していない
- 本がかなり古いので、「今どき」という表現は当てはまらないかもしれない
- Pandas の何が問題なのか、よく分からない
最初の仕事で Kernel Density Estimation (KDE) 関連のブログを参考にしたが、とても役に立った
それ以来、Jake の仕事が好きになった
この本のオンライン版は learningds.org で公開されている
ライセンスは CC-BY-NC-ND だ
Pandas を嫌う理由がよく分からない
完璧なツールではないが、うちのコードベースには数千行の Pandas コードがあり、本番バグ を起こしたことはほとんどない
Pandas に 静的スキーマラッパーと型チェッカー を併用して、安定して運用している
- 自作のスキーマラッパーなのか、それとも PyPI でおすすめできるパッケージがあるのか気になる
彼は素晴らしい書き手で、ブログが懐かしい
特に ピボットテーブル に関する記事が印象的だったが、その内容は今では本に含まれているようだ
- 彼は Python 向け可視化ライブラリ Altair（Vega-Lite ベース）の作者でもある
  Altair 公式サイトで確認できる
この本は 8 年前に書かれたが、同じ著者による 第2版 が存在する
- GitHub リポジトリに第2版のノートブック版がある
  「Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…」と表記されている
  元のリンクの 2016 年版と比較できる
2020〜2021 年にデータサイエンスを学びながら、最初から最後まで通読した数少ない本 のひとつだった
今でもおすすめできる