3 ポイント 投稿者 GN⁺ 2023-11-21 | 2件のコメント | WhatsAppで共有

データ可視化の良い例と悪い例

  • データ可視化に関する意見をまとめたエッセイで、良い可視化と悪い可視化の例や説明を含む。

平均の分離を示すための棒グラフを作ってはいけない

  • 平均分離グラフは科学出版物でよく見られるが、分布や標準偏差が似ている2つのグループが実際に同じかどうかを表現するのに棒グラフは適していない。
  • 棒グラフを使う前に、いくつか確認すべき点があることを強調している。

小標本サイズに対してバイオリンプロットを作ってはいけない

  • 小標本では分布や四分位数が大きく変わりうるため、バイオリンプロットには意味がない。
  • サンプルサイズが50以上のときに分布が安定することを実験で確認している。

一方向データに双方向のカラースケールを使ってはいけない

  • 一方向データに双方向のカラースケールを使うのは、データ可視化における大きなミスである。
  • カラースケールは意味のある特別な値を示すべきである。

多因子実験の結果を棒グラフで表現してはいけない

  • 多因子実験の結果を効果的に伝えるには、因子ごとのグループ化や区別について慎重な設計が必要である。

行と列を並べ替えずにヒートマップを作ってはいけない

  • ヒートマップは行と列の順序を考慮して効果的に作る必要がある。
  • クラスタリングによって行と列を並べ替えることはできるが、それが唯一の方法ではない。

外れ値を確認せずにヒートマップを作ってはいけない

  • ヒートマップで外れ値を確認しないと、データの解釈に大きな影響を与える可能性がある。

各因子水準でデータ範囲を確認するのを忘れないこと

  • 多因子実験では、応答変数の範囲が因子水準によって大きく異なる場合がある。

さまざまなレイアウトを試さずにネットワークグラフを作ってはいけない

  • ネットワークグラフの見た目は、その有効性を左右する重要な要素である。
  • レイアウトを変えることで、ネットワークグラフの解釈を容易にできる。

位置ベースの可視化と長さベースの可視化を混同してはいけない

  • 位置ベースの可視化と長さベースの可視化を混同すると、誤解を招くおそれがある。
  • 棒グラフを0起点にしないのは、データ可視化における大きなミスである。

円グラフを作ってはいけない

  • 円グラフは、角度や面積を読み取ることが人間には得意ではないため、批判されている。
  • データを長さで表現したいなら、ドーナツチャートをほどいて積み上げ棒グラフにするほうがよい。

同心円ドーナツチャートを作ってはいけない

  • 同心円ドーナツチャートは、外側のリングの弧の長さが内側のリングよりはるかに長いため、データを誤って表現する可能性がある。
  • シンプルで効果的な代替案は、ドーナツチャートをほどいて積み上げ棒グラフにすることである。

赤/緑および虹色のカラースケールを使ってはいけない

  • 赤緑色覚異常を考慮し、色覚多様性に配慮しつつ、グレースケールでも情報をよく保てるカラースケールを使うべきである。

積み上げ棒グラフの並べ替えを忘れないこと

  • 多くのサンプルとクラスがある場合、積み上げ棒グラフの順序を最適化して効果的に作る必要がある。

GN⁺の見解

この記事で最も重要なのは、データ可視化でよくある失敗と、それを避ける方法への認識を高めることである。データ可視化は複雑な情報をわかりやすく伝える強力な手段だが、誤って使うと誤解を招くことがある。この記事は、データを正確かつ明確に伝えたいすべての人にとって、興味深く有益な指針を提供している。

2件のコメント

 
xguru 2023-11-21

記事タイトルが面白いですね。元記事を見るとサンプルのグラフも一緒に載っているので、見やすいです。

 
GN⁺ 2023-11-21
Hacker Newsの意見
  • 一部のグラフは、データポイントの不足や疑わしい分布を隠すために意図的に選ばれている可能性があるという意見。
  • ヒートマップで外れ値を最大値として設定しないのは、ビデオゲームの統計可視化でよくある問題で、実際の温度問題を診断するにはほとんど役に立たないことが多い。
  • グラフの軸が0から始まっていないからといって、必ずしも誤解を招くとは限らず、そうした主張にうんざりした経験を共有する意見。
  • データ可視化でよく起こるミスの良い概観であり、同僚と共有したいという意見とともに、人間の知覚に関する研究に基づく資料の推薦。
  • データ可視化の追加の参考資料として、1983年に出版されたエドワード・タフティの『The Visual Display of Quantitative Information』を推薦。
  • データ可視化に関する教訓の多くは新しいものではなく、1939年に出版されたウィラード・C・ブリントンの『Graphic presentation』を参照すべきだと提案する意見。
  • 一方向のデータに双方向のカラースケールを使わないよう勧める「友人は友人に双方向カラースケールの使用を許さない」という助言。
  • バイオリンプロットに対する否定的な見解とともに、バイオリンプロットは存在すべきではないという内容の動画リンクの共有。
  • データを人間がどのように見るかについての研究に基づく複数のアイデアを統合した講演「How Humans See Data」の紹介。
  • データ型を分類し、それぞれに最適なグラフ/チャートのスタイルを選ぶ方法を説明するガイドへの言及と、そのガイドをブックマークしていないことへの残念さを表す意見。