このノートは、マーケティング領域でExploratoryを効率的に使い始めることができるように作られた「マーケティング領域におけるExploratoryの活用」の第8弾、「 主成分分析(PCA)」編です。
今回は「歯磨き粉に関するアンケート」データを使用します。このアンケートでは、歯磨き粉に求める7つの項目に対して7段階で回答を設定しています。なお、値が大きくなるほど、その要素をより重要に考えていることになります。
データはこちらのページからダウンロードできます。Macをお使いの方は「CSV-UTF8」を、Windowsをお使いの方は「CSV - Shift-JIS」をダウンロードしてください。
歯磨き粉に関するアンケートデータをダウンロードできたら、ダウンロードしたフォルダを開き、「歯磨き粉に関するアンケート.csv」をExploratoryの画面にドラッグ&ドロップします。
インポートダイアログが表示されました。
インポートダイアログの左側にある項目から、インポート時の設定を行うことが可能ですが、今回は設定は不要なため「インポート」ボタンをクリックします。
任意のデータフレーム名を指定して、「作成」ボタンをクリックします。
歯磨き粉に関するアンケートデータをインポートすることができました。
こういったアンケートを実施するときには、余計な質問を減らし、最低限の質問でより多くの情報を得ることが重要ですが、一部の回答間に強い相関関係(一方が1つの変数の値が変わるともう1つの変数の値も一定の規則を持って一緒に変わる関係)が生じることがあります。
そういったときには質問の内容を1つにまとめる、あるいはどちらか一方のみを残すなどして、質問の数を最適化することができるのですが、そういったときによく利用されるのが、主成分分析(PCA)です。
主成分分析は、よく次元削減の手法として使われるアルゴリズムの一つで、元のデータに含まれる情報量を極力失わないようにしながらも少ない数の「次元(変数)」で表現することができます。
さらには、複数の変数間の関係を可視化したり、元のデータの中にあるパターンや特徴を可視化したりすることにも使われるアルゴリズムです。
それでは、実際に主成分分析(PCA)を実行していきましょう。
アナリティクスビューに移動して、アナリティクスのタイプに「主成分分析(PCA)」を選択します。
続いて変数を選択します。
変数選択のダイアログが開いたら、Shiftキーを使って、「虫歯予防」から「魅力的な歯」を一気に選択します。
変数を選択したら、実行します。
主成分分析の結果が表示されました。
バイプロット・タブでは、それぞれの変数(アンケートの回答)を2つの軸(第1主成分、第2主成分)で表現しています。
線はそれぞれの変数を、点はデータの1行(アンケートの回答者)を表します。変数の線が同じ方向を向いている場合は、それらの変数で相関関係があると判断できます。
例えば今回のデータでは、「歯茎の強化」と「虫歯予防」の軸線や、「魅力的な歯」、「ピカピカの歯」、「息の爽やかさ」の軸線は同じ方向を向いていることから、それらの変数には強い相関関係があることがわかります。
また軸線が伸びている方向に位置している点の観察対象は、その軸線の変数の値が大きいことを表しています。
そのため、「歯茎の強化」や「虫歯予防」の軸線が伸びている方向に位置している観察対象はそれらの回答のスコアが高いことを表しており、
逆に、「歯茎の強化」や「虫歯予防」の軸線が伸びている方向と逆側に位置してい観察対象はそれらの回答のスコアが低いこと、つまりは「歯茎の強化」や「虫歯予防」を重要にはt考えていないことを表しています。
なお今回のデータには「虫歯予防は重要でない」という変数があり、「虫歯予防」の軸線が伸びている方向が「虫歯予防は重要でない」の軸線の逆に位置していることからも、このことをわかりやすく理解できます。
寄与率のタブでは、主成分分析で作られた軸である第1主成分、第2主成分によって元データの情報量(ばらつき)をどれだけ表現できるかを確認できます。
寄与率はそれぞれの主成分での情報量の表現できている割合で、累積寄与率はそれらの寄与率を足し上げて行った時にどれだけ表現できているのかがわかります。
例えば、成分1を確認すると、バイプロットのX軸で表現されていた第1主成分だけで元データの45%を表現できていることがわかります。
また成分2を確認すると、バイプロットのY軸で表現されていた第2主成分だけで元データの36%を表現できていることがわかり、
累積寄与率から主成分1(バイプロットのX軸)と主成分2(バイプロットのY軸)を合わせて、元データの82.49%を表現できていることがわかります。
重みタブでは、それぞれの変数ごとに主成分の重みを確認することができます。
PC1(第一主成分)で重みの値をソートすると、「歯茎の強化 」「虫歯予防 」「虫歯予防は重要ではない 」といった変数の重みが大きいことがわかります。
主成分分析では、「色で分割」に列を選択して、バイプロット上に観察対象のカテゴリの情報を表示させて、各変数の値が大きい/小さいところに、どういったカテゴリに属する観察対象が集まっているかを視覚的に確認することが可能です。
例えば、各観察対象を性別で色分けしたいときには、「色で分割」に「性別」を選択し実行します。
すると、観察対象が属するカテゴリごとに色で分割されます。
さらに、「ラベルの値をチャート上に表示」にチェックを付けると、バイプロット上にカテゴリの情報が表示されます。
カテゴリの情報が表示されることで、「魅力的な歯」、「ピカピカの歯」、「息の爽やかさ」のスコアが高い観察対象のほとんどが女性であることがわかります。
効果的なマーケティング活動を行うために必要なデータ分析手法を、見込みまたは既存顧客の購買、属性、行動に関するデータを使い、実際に手を動かしながら短期間で効率的に習得していただくためのトレーニングを開催しています。
データドリブンなマーケティング活動を行うために必要なデータサイエンスの手法を短期間で習得したい方は、ぜひこの機会に参加をご検討ください!