箱ヒゲ図の作り方

今回は、カテゴリデータごとに数値データの分布を見たい時によく使われる箱ヒゲ図の作り方をご紹介します。

今回はサンプルデータとして従業員データを使用していきます。

このデータは1行が1従業員で、列には年齢や給料、職種などの列があります。

今回は職種ごとに給料の分布が異なるのか箱ヒゲ図を使って可視化したいです。

箱ヒゲ図の見方

ここで、箱ヒゲ図の見方について紹介します。

例えば、縦軸が月収の範囲、横軸が人数のヒストグラムがあり、人数は全部で12人います。

それを人数が等しくなるように4分割します。この人数が等しくなるように分割することを等頻度と言います。すると、3人ずつのグループが4つできました。

この4分割した際に25%地点に当たる位置を第1四分位数(1Q)、50%地点に当たる位置が第2四分位数(中央値)、75%地点に当たる位置を第3四分位数(3Q)といい、これらを四分位数と呼びます。

そして箱ヒゲ図の箱はこの第1四分位数(1Q)から第3四分位数(3Q)までのことで、中央値から上下に25%ずつのデータがあるため、50%のデータがこの箱に集まっていることになります。ちなみに、この箱に含まれる範囲のことを四分位範囲(IQR)と言ったりします。

箱ヒゲ図で説明すると、下記のようになります。

次に、箱ヒゲ図のヒゲの部分は下が最小値、上が最大値を表します。

縦の長さが狭い場合は、その範囲にデータが密集しているということになります。もし縦が長い場合は範囲が広く、データがばらついているということです。

外れ値の場合は一般的に、IQR(四分位範囲)、つまり箱に含まれる範囲に1.5掛けたものを、第1四分位数(1Q)から下へ、または第3四分位数(3Q)から上へ伸ばした範囲よりはみ出ているものを外れ値として定義しています。

箱ヒゲ図の説明はここまでにして、さっそく箱ヒゲ図を作ってみましょう。

箱ヒゲ図の作成

「職種」ごとに「給料」の分布を比較するため箱ヒゲ図を作成します。

チャートを新規作成し、タイプに「箱ヒゲ図」を選択します。

給料の分布を見たいためY軸に「給料」を選択します。

全体での分布を箱ヒゲ図で可視化することができました。箱ヒゲ図にマウスオーバーすると、中央値や最大値、最小値などの値を確認できます。

外れ値を含むにチェックをすると、外れ値を含んだ状態で可視化されます。

次に、職種ごとにみたいためX軸に「職種」を選択します。

ここで先ほどチェックをした外れ値を外しておきましょう。

職種ごとに給料の分布を表す箱ヒゲ図を作ることができました。

職種によって、給料の分布に違いがあるのがわかります。

ここで、見やすくするために中央値の値をもとに給料が高い方から低い方へと並べ替えてみましょう。

並び替え(ソート)のチェックボックスにチェックをつけます。

すると、月収の高い順に並び替えることができました。

この箱ヒゲ図を見ると、3つの分布があるように見えます。

月収が高い分布と、中間に位置する分布、そして月収が低い分布があることがわかります。 月収が高いのは、マネージャーとリサーチディレクターで、中央値では約17,000ドルもあります。

Export Chart Image
Output Format
PNG SVG
Background
Set background transparent
Size
Width (Pixel)
Height (Pixel)
Pixel Ratio