Pythonはデータサイエンスに適した言語ではない

(blog.genesmindsmachines.com)

11 ポイント投稿者 GN⁺ 2025-11-27 | 2件のコメント | WhatsAppで共有

データ分析・可視化・要約のような 非ディープラーニングのデータ作業 では、Python は機能面では十分でも、利用体験が複雑で非効率に陥りやすい
研究室での事例全般で、R よりも Python のほうが単純なグラフ変換や統計計算にも多くのコードと時間を要する傾向が繰り返し確認されている
pandas・matplotlib・NumPy などを使っても、構文・インデックス指定・括弧・メソッドチェーンの構造 のため、ロジックよりも 実装の細部（Logistics） にとらわれがちなことが多い
一方で R の tidyverse はデータ処理の流れを自然言語レベルで表現でき、作業ロジックをそのままコードへ移しやすい
Python はデータサイエンス言語として ロジックとロジスティクスの分離 に構造的な限界があり、これは言語とエコシステム設計に起因する問題である

Python と R の実際の使用体験の比較

研究室のメンバーは言語を自由に選べるが、Python 利用者が多く、彼らが簡単な追加分析の依頼を素早く処理できないパターンが一貫して見られる
- 箱ひげ図→バイオリンプロット、ヒストグラム→密度グラフ、折れ線グラフ→ヒートマップのような可視化の切り替えも即座には実行しづらい
- R では数行で終わる作業が、Python では「席に戻ってまたコーディングしないといけない」と感じるほどの負担になる
Python の専門家と共同授業を行う場合でも、必要なコード量と複雑さで R との大きな差 が現れる
- 「なぜここまで複雑でなければならないのか？」という反応がさまざまな場面で繰り返し見られ、これは個人の技能ではなく 言語・ライブラリアーキテクチャ上の構造的な違い に見える
- 同じロジックでも Python ではインデックス指定・データの分離・再構成・複数メソッドの結合が必要になり、構造が冗長になる
- R tidyverse では filter → group_by → summarize のような自然なチェーンで直接的に表現できる

Python が広く使われる理由とその限界

Python のデータサイエンスにおける地位は、固有の適性というより歴史的な普及・汎用性・エコシステムの大きさ に基づいている
- ディープラーニング分野は PyTorch・AI エコシステムのおかげで明らかに Python 中心である
- しかし、データ整形・探索・可視化・統計モデリング では依然として不便さが多い
「歴史的偶然（historical accident）に近い人気」であり、R と比べた言語構造の重さ がさまざまな例を通じて繰り返し示される

良いデータサイエンス言語の条件

データ探索・要約・モデル適合・可視化を中心とする作業では、対話的環境、低い設定コスト、高速な反復 が最も重要である
- コンパイル言語より スクリプト型インタプリタ言語 が適している
- 性能よりも コードの単純さ・エラーリスクの低減・思考負担の最小化 が優先される
- 必要であれば、全体ではなく一部の演算だけを高性能言語（Rust など）で書き直せば十分である
現実的に検討できる言語は R と Python である
- Matlab、Mathematica などは商用であったり、エコシステムが限定的だったりする
- Julia もしばしば言及されるが、著者は十分に使い込んでいないため評価を保留している

「ロジック vs ロジスティクス」の問題

データ分析言語は、何を計算するか（ロジック） と どう計算するか（ロジスティクス） を分離すべきである
- データ型・インデックス・ループ・手動組み立てを気にしなければならないなら、すでにロジスティクスに縛られている状態だ
Palmer Penguins の例では、R の tidyverse は自然言語に近い流れで平均・標準偏差の計算を表現する
- データフローを分解してから再び組み立てる過程を必要としない
pandas も類似の機能を提供するが、文字列指定・括弧・メソッドチェーン・reset_index など副次的な作業が多く、可読性と単純さに欠ける
純粋な Python だけで同じ作業を実装する場合
- ループ構成 → グループキー生成 → 分割 → 平均計算 → 分散計算 → 標準偏差計算 → 再構成 → ソートなど
- すべて手動で処理しなければならず、ロジスティクスのコードがロジックを圧倒する典型例 になる

結論と今後の内容予告

Python はデータ分析において ロジックよりも実装の細部へ注意を向けさせる構造的問題 を繰り返し露呈している
- これは言語自体の特性・ライブラリ設計の限界・エコシステム全体の慣習が結び付いた結果と見られる
続編では、Python が R よりデータ分析を難しくする 具体的な技術的要因 を扱う予定

追加の議論・比較の観点（読者フィードバックを含む）

tidyverse は素の R より冗長になることもあるが、表現力・一貫性・データ処理の抽象化 の面で強力だという意見もある
一方で R は、モジュール化・テスト・CLI 実装 などソフトウェア開発の観点では不便さが大きいという反論も示されている
Python は ロギング・仮想環境・パッケージング・クラス構造などの開発者体験 に優れるが、
- matplotlib は 直感的でない設計、
- pandas は 一貫性のない構文、
- scikit-learn は 設計上の問題 がしばしば指摘される
一部の意見では Python を「不安定で品質の低いコードを素早く量産する言語」と見なし、
持続可能な開発 には静的型付け言語のほうがよいと言及している

2件のコメント

kaydash 2025-11-28

データの複雑さと量が増え、段階的な分散処理が必要になり、非構造化データと構造化モデル、さらにLLMによる加工まで必要だとすれば、ユースケースも多いのだから、むしろ最も適した言語なのではないか。

GN⁺ 2025-11-27

Hacker Newsの意見

boxplotをviolin plotに変えたり、line plotをheatmapに変えたりといったさまざまな変換例が挙げられていた。
こうした議論は実際にはPythonよりも matplotlib に関する話だ。
Pythonでggplotのデザインを求めるなら plotnine を使えばよい。
Rのコードがより簡潔に見えるのは、Rの 非標準評価(non-standard evaluation) のおかげだ。
Pythonは言語レベルでこうした拡張を許していない。
関連内容は Computing on the language を参照。
- 結局のところ、これはPython対Rの違いの話だ。
  非標準評価は対話的な環境では便利だが、複雑な分析コードを書くときにはむしろ欠点になる。
  単純な作業でも回り道をしなければならないことがある。
- Rコードでパイプを文末に置くのは見づらい。
  Elixirのように 前置のパイプ演算子 を置くほうがよいと思う。
  Pythonでもgetattrのようなトリックで似た構文をまねることはできるが、結局これは言語というより ライブラリAPI設計 の問題だ。
- 「ライブラリなしでロジスティックな作業をRでやるなら？」と想像するだけでも恐ろしい。
  Rはライブラリと レシピがあるときだけ簡単 で、なければ本当に難しく、たいていは誰もやらない。
- こうした目的には seaborn が向いている。
  matplotlibの不便さを抽象化しつつ、豊富な機能を提供する。
  Seabornチュートリアル
- 結局の核心はPythonではなく、RにできてPythonにできないことを語っているように思える。
なぜプログラミング言語で テーブルが第一級オブジェクト ではないのか疑問だ。
ほとんどの言語では、テーブルを扱うためにpandasやpolarsのような別APIを学ばなければならない。
Rではdata.frameが第一級オブジェクトに近いが、実際にはdplyrのtibbleのほうがよく使われる。
まだ表データを扱う 表現言語 は標準化されていない。
Polarsとdplyrは似た思想を共有しているが、結局SQLが唯一の共通基盤のように見える。
Pythonも完璧ではないが、Rも同様だと思う。
- 言語レベルで欠けている構造が多いと感じる。
  テーブル、行列、グラフ、状態機械 のような構造が言語レベルでサポートされておらず、活用が制限される。
  言語に標準で含まれる道具が、その言語の「きれいな道」を決める。
  以前はkey-value storeも外部ライブラリだったが、今では標準のようになっている。
- Q、Rye、Lilのような言語は、テーブルを 本当の第一級データ型 として扱う。
  いずれ主流言語もこうした テーブルベースのプログラミング を取り込むだろうと予想している。
  Q言語、Rye比較記事、Lil実験ツール
- tibbleとdata.tableはdata.frameを継承しているので、Rの 基本関数がそのまま動作 する。
  3つのオブジェクト間の変換も非常に簡単だ。
- テーブルサイズが100万、10億、1兆行へと大きくなるほど、問題の性質は完全に変わる。
  こうした規模差を優雅に処理できる標準APIを設計するのは簡単ではない。
- Rの data.table は素晴らしい。
  ただしdplyrが文書化とオンボーディングで勝ち、産業界での採用を得た。
文章の要点は悪くないが、著者が主張の根拠をあまりに早く明かしてしまったのが惜しい。
Rは データフレーム処理 には強いが、ファイル管理や保守性 には弱い。
こうした作業が多いならPythonのほうがよく、速度まで重要ならJulia寄りになる。
各言語は優先順位に応じて選択が変わる。
学生がpandasでグラフのような非表形式の問題を解こうとするのをよく見るが、そういうときは道具選びを見直すべきだ。
- Pythonの例示コードは不適切だ。
  numpy を使えば平均と分散の計算はすでに組み込みである。
  PythonとRはどちらも学習難度は似ているが、Pythonは他アプリケーションとの 統合性 が強みだ。
- 文章の第2部はここで読める。
- 私もPythonとRを半々で使っている。
  大容量ファイルを処理するときはPython、要約データを分析するときはRが効率的だ。
  各言語は 適材適所の道具 として使うのが正しい。
PythonプログラマーとしてRも使ってみたが、Pythonは「何でもかなりうまくこなすが、完璧ではない言語」だ。
一日中データ分析をするならRを学ぶべきだ。
Rは 統計学者の思考様式 に合わせて設計された言語だ。
最初はなじみにくいが、その発想の切り替えがむしろ役に立つ。
それでも私はたいていPythonで仕事をしている。
pandasでデータサイエンスをすることは可能だが、無骨で複雑 だった。
polarsで少し良くなったが、duckdb を使って完全に変わった。
notebook内でSQLクエリを直接実行し、parquetファイルを分析している。
SQLセルとPythonセルを混ぜて使うとコードがすっきりする。
文章の最後のPython対R比較を見て、「これはSQLで書いたほうがずっとよくないか？」と思った。
- 私はSQLより データフレーム中心 に、言語の中で完結させるほうを好む。
- よくpolarsを使っているので、duckdbも一度試してみたい。
最後のPython例は不必要に冗長だ。
defaultdict と statistics.stddev を使えばずっと簡潔になる。
- Bessel補正を直接入れたのは興味深い。
  補正が意味を持つか考えずに実装してしまうことが多い。
  これは実際には sample_std_dev と呼ぶほうが正確だ。
- itertools.groupby も使える。
  コードは短くならないが、意図を明確に表現 できる。
- 元のコードのほうが読みやすい。
  短く書こうとして 可読性を犠牲 にするのはよくない。
Juliaの TidierData.jl で同じ例を実装してみたところ、R版とほぼ同じになった。
@chain、@group_by、@summarize のようなマクロ構文はRのtidyverseに似ている。
筆者の不満がよく理解できない。
Pythonがデータサイエンスに最適化されていないのは 当然の事実 だ。
PythonはDSLではなく、MATLABでさえ科学計算向けに設計されたが人気のない言語だ。
良い言語とは完璧な天気というより 住みやすい都市 のようなものだ。
Pythonは「天気はよくないが繁栄している北欧の都市」のようだ。
このテーマはやや クリック誘導型 で、生産的な議論ではないと思う。
Juliaがもっと使われてほしい。
以前、心理測定学論文向けアルゴリズム をJuliaで再実装したところ、MATLABより3倍速く動いた。
関連論文リンク
- その40分の実行時間短縮が、論文執筆全体のスケジュールにどれほど重要だったのか気になる。
最後の例は現実的なPythonコードというより 反Python的な風刺 のように見える。
標準偏差を自前で実装するのは学部課題レベルだ。
実際にはRもPythonも内部ではこうしたループを回している。
- 文章が 研究室の文脈 に焦点を当てているのは理解できる。
  しかし実際の産業環境では、Pythonのほうが エンジニアリングチームと協業 しやすい。
  Rコードを本番環境にデプロイしたことがあるが、非常に不安定だった。
  Rは探索的分析(EDA)には素晴らしいが、大規模ソフトウェア開発 には不向きだ。