- Pythonベースのデータサイエンスの主要なツールと手法を扱うオンラインハンドブックで、内容全体がWebサイトとGitHubで公開されている
- Jupyterノートブック形式で提供されるため、実習中心の学習が可能で、コードとテキストが一緒に含まれている
- テキストはCC-BY-NC-NDライセンス、コード例はMITライセンスで配布されており、自由な非商用利用が可能
- IPython、NumPy、Pandas、Matplotlib、Scikit-Learn など、データ分析と機械学習の中核ライブラリを体系的に扱っている
- データサイエンスの入門者から実務者まで、Pythonエコシステムの標準的なワークフローを身につけるのに役立つ資料である
概要
- このサイトには Jake VanderPlas の 『Python Data Science Handbook』 の全内容が収められている
- 原書は O’Reilly から出版されており、Web版は無料で公開されている
- すべての内容は GitHub リポジトリで Jupyter ノートブック形式として提供されている
- テキストはCC-BY-NC-NDライセンス、コード例はMITライセンスで配布されている
- 読者が有用だと感じた場合は、原書の購入を通じて著者を支援できる
目次構成
第1章: IPython – 通常のPythonを超えて
- IPython 環境の機能と使い方を説明
- ヘルプシステム、キーボードショートカット、マジックコマンド、シェルコマンド連携などを含む
- コード実行履歴、デバッグ、性能計測機能を扱う
第2章: NumPy入門
- NumPy配列を使った数値計算の基礎を扱う
- データ型、ブロードキャスティング、ブールマスク、ソート、構造化配列などを含む
- 配列ベース演算と集計関数の活用方法を説明
第3章: Pandasによるデータ操作
- Pandas の主要オブジェクトとデータ処理機能を扱う
- インデックス、欠損値処理、グループ化、ピボットテーブル、時系列処理などを含む
eval() と query() による高性能な演算機能も紹介
第4章: Matplotlibによる可視化
- Matplotlib と Seaborn を活用したデータ可視化の方法を説明
- 折れ線グラフ、散布図、ヒストグラム、密度プロットなど多様なグラフ種類を含む
- 凡例、カラーバー、スタイルシート、3Dグラフ、地理データ可視化などの高度な機能を扱う
第5章: 機械学習
- Scikit-Learn を中心に、機械学習の基本概念とアルゴリズムを扱う
- ハイパーパラメータ、モデル検証、特徴量エンジニアリングなどの主要な手順を含む
- ナイーブベイズ、線形回帰、SVM、ランダムフォレスト、PCA、k平均、GMM などの主要モデルを説明
- 顔認識パイプラインの例を通じて実際の応用事例を示す
付録: 図のコード
活用意義
- データサイエンス学習者に Pythonエコシステムの統合的な理解 を提供する
- 実習可能なノートブック形式により、教育・研究・プロトタイピング に活用できる
- オープンソースライセンスで公開されており、継続的な拡張とコミュニティ貢献 がしやすい
2件のコメント
https://product.kyobobook.co.kr/detail/S000201558138
Pythonライブラリを活用したデータ分析
pandasを作ったウェス・マッキニーが書いた本ですが、データサイエンスの入門書としてこの本も良いです。私はこの本の第2版が最初に出たときに読んだのですが……今検索してみたら、第3版が出ていたんですね
Hacker Newsのコメント
Jake VanderPlas の Statistics for Hackers の講演が本当に好きだった
発表資料を見る
たとえば、疾病の有病率が 1/10,000 で、検査の精度が 99% だったとしても、陽性結果が 99% の確率でその病気を意味するわけではない
こういう種類の本はいつも興味深い
データ操作、可視化、機械学習など、さまざまなトピックを 広く浅く 扱っていて、それぞれのトピックだけでも一冊の本になり得る
プログラミング教育と概念・理論の紹介のバランスを取るのは難しいが、この本は入門書として良いバランスを実現しているようだ
この本は 2017〜2018 年にデータサイエンスを始めたとき、本当に 火がついたように役立った
Jake は素晴らしい教師だった
今の時点で Pandas を選んでいるのは興味深い
おそらく最新ツールよりも 一般的な概念の伝達 に重点を置いているのだと思う
最初の仕事で Kernel Density Estimation (KDE) 関連のブログを参考にしたが、とても役に立った
それ以来、Jake の仕事が好きになった
この本のオンライン版は learningds.org で公開されている
ライセンスは CC-BY-NC-ND だ
Pandas を嫌う理由がよく分からない
完璧なツールではないが、うちのコードベースには数千行の Pandas コードがあり、本番バグ を起こしたことはほとんどない
Pandas に 静的スキーマラッパーと型チェッカー を併用して、安定して運用している
彼は素晴らしい書き手で、ブログが懐かしい
特に ピボットテーブル に関する記事が印象的だったが、その内容は今では本に含まれているようだ
Altair 公式サイト で確認できる
この本は 8 年前に書かれたが、同じ著者による 第2版 が存在する
「Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…」と表記されている
元のリンクの 2016 年版と比較できる
2020〜2021 年にデータサイエンスを学びながら、最初から最後まで通読した数少ない本 のひとつだった
今でもおすすめできる