チャート:数値データを区切っていくつかのグループにする方法

Exploratoryでは、チャートの中で直接、数値データを区切っていくつかのグループに分けることで、あたかもカテゴリーデータとして可視化することができます。

さっそく見ていきましょう。

サンプルデータ

今回は、従業員データを使用します。

数値データのカテゴリー化

下の散布図は、X軸に「勤続年数」、Y軸に「給料」の列を割り当て、この2つの数値データの間の関係を可視化しています。

一般的には、数値データどうしの関係性を見る時には散布図がよく使われますが、数値データをカテゴリー化することで、他のチャートを使ってそうした関係を効果的に可視化することもできます。

下の箱ひげ図では、X軸に「勤続年数」、Y軸に「給料」を割り当てていますが、X軸の「勤続年数」は数値の範囲に基づいて5つのグループに分けられています。このことで、それぞれの勤続年数のグループの給料の分布を可視化することができます。

数値データをカテゴリー化するには、単純にX軸に数値の列を割り当てるだけです。自動的にスケールが「カテゴリー」となり、デフォルトでは5つのグループに分けられます。

もし設定を変更したい場合は、緑色のテキストをクリックします。

例えば、カテゴリーの数を10に変更してみます。

これを見ると、勤続年数が20年以上と20年未満では月収に大きな格差があることがわかります。

他のチャートでの数値のカテゴリー化

もちろん、数値をカテゴリー化する機能は、箱ヒゲ図だけでなく他のチャートでも使用できます。

例えば、下記のバーチャートは勤続年数をカテゴリー化(X軸)して、平均の月収(Y軸)を可視化しています。

ピボットテーブルでの数値のカテゴリー化

ピボットテーブルでも、数値データをカテゴリー化して分類することができます。

色の数値のカテゴリー化

X軸やY軸だけでなく、「色」に割り当てる数値データもカテゴリー化することができます。

このバーチャートでは、月収の列を「色」に割り当てました。色に数値データを割り当てた時も自動的にカテゴリー化され、5つのグループに分類されます。

これにより、勤続年数ごとに月収のグループの割合を可視化することができます。勤続年数が20年以上の従業員の多くは高収入であることは明確ですが、20年を過ぎてから何年働くかは問題ではないようです。

繰り返しの数値のカテゴリー化

繰り返しでも「数値のカテゴリー化」をすることができます。

このチャートでは、「繰り返し」に数値型の列である「給料」を割り当てていますが、カテゴリー化されているため、それぞれのチャートは給料の低い方から高い方へ5つのグループに分けられたものとなっています。

一番最後のチャート(右下)は高収入のグループですが、職種は“Manager”と“Research Director”のみとなっているのがわかります。

カテゴリー化のオプション

これまでのところ、数値データをカテゴリー化するにあたって「等幅」という手法を使ってきましたが、他にも以下のようないくつかの手法があります。

  • 等頻度
  • 手動
  • 外れ値

それぞれ簡単にみていってみましょう。

等頻度

等頻度とは、いくつかのグループに分けた後の「行の数」が同じ頻度になるという手法です。

例えば以下の地図は国ごとの売上データ(数値)を「等幅」の手法を使ってカテゴリー化して色で可視化したものです。

しかし問題は、米国のみ赤色で、その他の国は全て青色に見えるため、それぞれの国同士の違いわかりにくくなっています。これは、米国が他の国に比べて売上の値が圧倒的に大きいため、「等幅」の手法では米国に比べて圧倒的に低い売上の値を持っているそれ以外の国が全て同じように見えてしまっているのです。

そこで、カテゴリー化の手法を「等頻度」にしてみることで、それぞれの色のグループに入っている国の数を一緒にすることができます。

これにより、米国以外の国どうしの違いがわかりやすくなりました。

手動

「手動」を使って数値データを任意の値で区切ってカテゴリー化することができます。

下のバーチャートは、X軸に年齢(数値)の列が割り当てられていますが、それを任意の値で区切って複数のグループにし、それぞれの年齢グループごとの職種別の従業員の割合を可視化しています。

上の例ではプロパティで、任意の区切り値(30,40,50)を設定し、各グループにラベルをつけています。

外れ値

「外れ値」を使って、数値データを小さい方の外れ値のグループ、大きい方の外れ値のグループ、外れ値ではないグループの3つのグループに分けることができます。

下のヒストグラムは、年齢の分布を繰り返しを使って部署ごとに分けて可視化しています。

例えば、部署ごとの年齢の外れ値をみたい場合は、「色」に年齢を割り当てます。

そして、カテゴリーのタイプを「外れ値」にして、外れ値のタイプを「標準偏差(SD)」にします。

外れ値は、緑色(値が高い)または赤色(値が低い方)にあります。

この「外れ値」分類は、データ全体に対して行われます。しかし、各部署に対してそれを行いたい場合は、「グループ化」設定を「繰り返し」を使用するように設定できます。

これにより、部署ごとに外れ値の設定を可視化することができました。

参考記事

他にもExploratoryを始めるにあたって役に立つチュートリアルがあります。

興味がある方はこちらから。

  • Exploratoryの始め方ガイド - Link
  • 特定のグループをハイライトして強調する - Link