一般化線形モデル(GLM)の負の二項分布は、0以上の整数(回数)データの分析において、特にばらつきが大きいデータを扱う際に適した統計手法です。世の中には「回数」として数えるデータが数多く存在します。このような回数データを分析する際に、データの特徴によって適切な分析手法を選ぶ必要があります。特に、極端に偏りの大きいデータを分析する時に効果的な手法が、GLM - 負の二項分布です。
少数の高い値と多数の低い値が混在する状況では、一般的な分析手法では正確な予測や要因分析が難しくなります。負の二項分布を使用した分析では、このような極端な偏りのあるデータでも、より正確に分析することができます。具体的には、それらに影響を与える要因を特定したり、将来の予測を行ったりすることが可能です。
このように、負の二項分布は、極端な偏りのあるデータに対して、より実態に即した分析を可能にする手法です。この分析結果を活用することで、より効果的なマーケティング施策の立案や、サービス改善のポイントを見つけることができます。
GLM - 負の二項分布は、主にばらつきの大きい回数データを分析する際に使用します。
例えば、ECサイトでの商品レビュー数を考えてみましょう。人気商品には数百件ものレビューが付く一方で、大多数の商品にはほとんどレビューが付かないといった状況がよくあります。また、レストランの来店データでは、常連のお客様は月に何度も来店される一方で、たまにしか来ないお客様も多くいます。
商品の価格帯や商品説明の文字数、画像の数などが、実際にレビュー数にどの程度影響を与えているのかを明らかにしたり、新商品が出た際に、どの程度のレビュー数が集まりそうかを予測したりすることができます。また、顧客の来店回数、商品の不具合報告件数、ソーシャルメディアでの投稿数など、0以上の整数で表される回数データで、かつデータのばらつきが大きい現象の分析にも適しています。
参考となるデータ例:
Eコマース領域での使い方
小売業領域での使い方
マーケティング領域での使い方
カスタマーサポート領域での使い方
今回は「ECサイトのレビューデータ」を使用します。データはこちらからダウンロードが可能となっています。
このデータは1行が1商品を表し、ECサイトでの商品別のレビュー数とその関連指標(価格帯、カテゴリー)などの情報が列としてあります。
GLM - 負の二項分布を実行するためには、以下のようなデータの構造が必要となります。
ECサイトのレビューデータから「アナリティクス・ビュー」を開きます。
タイプに「一般化線形モデル」を選び、「GLM - 負の二項分布」を選択します。
目的変数には、「レビュー数」の列を割り当てます。
予測変数には、「商品カテゴリー」から「購入数」までの列をシフトキーを押しながら複数選択します。
最後に、「実行」ボタンをクリックして実行結果を確認します。
GLM - 負の二項分布では、レビュー数に影響を与える要因を解釈するために変数重要度や影響度などの情報があります。
「多重共線性」タブをクリックすると、予測変数間の相関が強すぎる(VIF > 10)組み合わせがないかを確認できます。VIFが10以上の変数がある場合、モデルの信頼性に影響を与える(傾きが不安定になる)可能性があるため、変数の選択を見直す必要があります。
今回の結果は、VIFが10以上のものはないため、予測変数同士に相関が強すぎる変数の組み合わせがないため、モデルが不安定であることはないことがわかります。
「変数重要度」タブをクリックすると、目的変数を予測する上でどの変数が重要なのかを確認することができます。
この結果から、レビュー数の予測に最も重要な変数は平均評価点であり、次いで閲覧数、商品説明文字数の順となっていることがわかります。これは、商品の評価の高さや閲覧数がレビュー数に大きく影響していることを示しています。
「影響度」タブをクリックすると、各予測変数がレビュー数に与える影響の方向と強さを確認することができます。
例えば、平均評価点の値が上がると、レビュー数も増えることが確認出来ます。
また、商品説明文字数が長くなればなるほど、レビュー数の評価も増える関係があることがわかります。商品説明が充実していることで、顧客の期待値と実際の商品との差異が小さくなり、満足度が高くなり、結果的にレビュー数が増えているのかもしれません。
「係数」タブをクリックすると、各予測変数の係数とその統計的有意性を確認することができます。
この結果から、各変数の効果の大きさと方向性を具体的な数値で確認できます。係数(発生率比)が正の値は、その変数が増加するとレビュー数も増加することを示し、負の値は減少することを示します。P値が0.05未満の変数は、統計的に有意な影響を持っていると判断できます。
例えば、平均評価点が1点上がると、発生率比が1.465のためレビュー数が1.465倍になる傾向があると解釈が出来ます。P値も0.0001未満のため、統計的に有意な関係があると判断が出来ます。
「サマリ」タブをクリックすると、モデル全体の予測精度を確認することができます。
Thetaの解釈
Theta(θ)は、データのばらつきの大きさを示す指標です。値が大きいほど安定したデータ、小さいほどばらつきが大きいことを示します。
基準値:
今回の結果(θ = 2.06)は2を超えており、データが比較的安定していることを示しています。
逸脱度の減少率
モデルがデータをどれだけ上手く説明できているかを示す指標です。値が大きいほど、モデルの説明力が高いことを意味します。
逸脱度減少率=Nullモデルの逸脱度−残差逸脱度Nullモデルの逸脱度×100 = 100逸脱度減少率=Nullモデルの逸脱度Nullモデルの逸脱度−残差逸脱度×100
基準値:
今回の場合は以下のように計算ができ、11.8%の減少は、十分な改善が見られたことを示しています。
(1247.66 - 1099.85) / 1247.66 × 100 = 11.8%
GLM - 負の二項分布は、レビュー数、来店回数、問い合わせ件数といった「回数」を分析する際に、特に極端な偏りがあるデータに対して効果的な分析手法です。
今回のECサイトのレビュー数分析では、レビュー数に影響を与える主な要因として、平均評価点、閲覧数、商品説明文字数が関係があることがわかりました。これらの分析結果から、レビュー数を増やすためには、商品の評価を高める取り組み、商品説明の充実化などが効果的だと考えられます。