データ・サイエンス概論第10回授業内ワークのまとめテンプレート
*以下のテンプレートを参考に、Exploratoryのアナリティクス機能で作成したチャートやその説明をまとめたExploratoryのノートを作成しましょう。
A.従業員データの「職種」ごとの「給料」の差をクラスカル・ウォリス検定で分析する
1.仮説の設定 ・帰無仮説: 職種ごとに給料に差はない ・対立仮説: 職種ごとに給料に差はある
2.検定方法や有意水準の設定 有意水準を5%とし、クラスカル・ウォリス検定を実施した。
3.検定の実施(結果)
表1 検定の結果(サマリを貼る)
表2 検定の結果(統計量を貼る)
図1 95%信頼区間の比較(平均値を貼る)
表3 多重比較の結果(多重比較を貼る)
4.P値やH値の確認 検定の結果を表1~表3、図1に示した。H値は1073、有意確率(P値)は 5%未満(p<0.05) であった。 5.仮説の判定(結論) 検定の結果、P値が有意水準を下回ったから、帰無仮説を棄却し、対立仮説を採択する。 つまり、今回のデータと分析に基づけば、職種ごとの給料には、統計的に有意な差がある。
B.従業員データの「残業」有無と「離職」有無の関係をカイ二乗検定で分析する
1. 仮説の設定 ・帰無仮説: 残業有無と離職有無は無関係である(残業有無によって離職の割合に差はない) ・対立仮説: 残業有無と離職有無は関係がある(残業有無によって離職の割合に差がある)
2.検定方法や有意水準の設定 有意水準を5%とし、カイ二乗検定を実施した。
3.検定の実施(結果)
表1 検定の結果(サマリを貼る) # 残業有無と離職有無 - サマリ
表2 検定の結果(ピボットテーブルを貼る) # 残業有無と離職有無 - ピボットテーブル
4.カイ二乗値やP値、Cramer’s Vの確認 検定の結果を表1~表2、図1に示した。カイ二乗値は89、有意確率(P値)は5%未満(p<0.05)であった。また、効果量を示すCramer’s Vは 0.25 であった。
5.仮説の判定(結論) 検定の結果、P値が有意水準を下回ったから、帰無仮説を棄却し、対立仮説を採択した。つまり、今回のデータと分析に基づけば、残業有無と離職の間には、統計的に有意な関係があるといえる(残業有無によって離職率に差がある) また、効果量を示すCramer’sの数値から残業の有無は離職に対してある程度の影響があるといえる
※早く終わった人は、その他のデータを使ったクラスカル・ウォリス検定、カイ二乗検定 も試してみてください。