友人は友人がひどいグラフを作らないよう助ける
(github.com/cxli233)データ可視化の良い例と悪い例
- データ可視化に関する意見をまとめたエッセイで、良い可視化と悪い可視化の例や説明を含む。
平均の分離を示すための棒グラフを作ってはいけない
- 平均分離グラフは科学出版物でよく見られるが、分布や標準偏差が似ている2つのグループが実際に同じかどうかを表現するのに棒グラフは適していない。
- 棒グラフを使う前に、いくつか確認すべき点があることを強調している。
小標本サイズに対してバイオリンプロットを作ってはいけない
- 小標本では分布や四分位数が大きく変わりうるため、バイオリンプロットには意味がない。
- サンプルサイズが50以上のときに分布が安定することを実験で確認している。
一方向データに双方向のカラースケールを使ってはいけない
- 一方向データに双方向のカラースケールを使うのは、データ可視化における大きなミスである。
- カラースケールは意味のある特別な値を示すべきである。
多因子実験の結果を棒グラフで表現してはいけない
- 多因子実験の結果を効果的に伝えるには、因子ごとのグループ化や区別について慎重な設計が必要である。
行と列を並べ替えずにヒートマップを作ってはいけない
- ヒートマップは行と列の順序を考慮して効果的に作る必要がある。
- クラスタリングによって行と列を並べ替えることはできるが、それが唯一の方法ではない。
外れ値を確認せずにヒートマップを作ってはいけない
- ヒートマップで外れ値を確認しないと、データの解釈に大きな影響を与える可能性がある。
各因子水準でデータ範囲を確認するのを忘れないこと
- 多因子実験では、応答変数の範囲が因子水準によって大きく異なる場合がある。
さまざまなレイアウトを試さずにネットワークグラフを作ってはいけない
- ネットワークグラフの見た目は、その有効性を左右する重要な要素である。
- レイアウトを変えることで、ネットワークグラフの解釈を容易にできる。
位置ベースの可視化と長さベースの可視化を混同してはいけない
- 位置ベースの可視化と長さベースの可視化を混同すると、誤解を招くおそれがある。
- 棒グラフを0起点にしないのは、データ可視化における大きなミスである。
円グラフを作ってはいけない
- 円グラフは、角度や面積を読み取ることが人間には得意ではないため、批判されている。
- データを長さで表現したいなら、ドーナツチャートをほどいて積み上げ棒グラフにするほうがよい。
同心円ドーナツチャートを作ってはいけない
- 同心円ドーナツチャートは、外側のリングの弧の長さが内側のリングよりはるかに長いため、データを誤って表現する可能性がある。
- シンプルで効果的な代替案は、ドーナツチャートをほどいて積み上げ棒グラフにすることである。
赤/緑および虹色のカラースケールを使ってはいけない
- 赤緑色覚異常を考慮し、色覚多様性に配慮しつつ、グレースケールでも情報をよく保てるカラースケールを使うべきである。
積み上げ棒グラフの並べ替えを忘れないこと
- 多くのサンプルとクラスがある場合、積み上げ棒グラフの順序を最適化して効果的に作る必要がある。
GN⁺の見解
この記事で最も重要なのは、データ可視化でよくある失敗と、それを避ける方法への認識を高めることである。データ可視化は複雑な情報をわかりやすく伝える強力な手段だが、誤って使うと誤解を招くことがある。この記事は、データを正確かつ明確に伝えたいすべての人にとって、興味深く有益な指針を提供している。
2件のコメント
記事タイトルが面白いですね。元記事を見るとサンプルのグラフも一緒に載っているので、見やすいです。
Hacker Newsの意見