変数重要度とは、予測モデルにおいて「どの説明変数がどれだけ予測に貢献しているか」を測るための指標です。モデルの中でどの変数がどれだけ重要なのかを明らかにすることで、以下のような場面で役立ちます。
重要な要因を特定したいとき(例:給料に影響する要因を知りたい)
不要な変数を減らしたいとき(特徴量選択)
変数重要度の計算方法は、「ある変数を除いたときに予測精度がどれくらい下がるか」を調べることで求めます。
手順は次の通りです:
すべての変数を使ってモデルを作成し、基準値となる予測精度を記録します。
1つの変数を除いてモデルを再構築します。
元の精度と比較して、どれだけ予測精度が悪くなったかを記録します。
これをすべての変数について繰り返します。
精度が大きく下がった変数ほど、予測にとって重要だと判断されます。
以下のようなデータ(給料、勤続年数、職種、職位)を使って給料を予測するモデルを構築します。
モデルが予測した結果と元のデータを比較し、予測精度が90であるとします。
この90がこの予測モデルでの基準値となります。
「勤続年数」を除くと予測精度は80に低下しているため、10ポイント悪化していると考えられます。
「職種」を除くと予測精度は70に低下しているため、20ポイント悪化していると考えられます。
「職位」を除くと予測精度は20と大きく低下しているため、70ポイント悪化していると考えられます。
予測精度の低下幅がそのまま変数重要度として使えます。
変数名 | 重要度(予測精度の低下幅) |
---|---|
勤続年数 | 10 |
職種 | 20 |
職位 | 70 |
この結果から、「職位」が最も重要な変数(重要度70)で、次に「職種」(重要度20)、最後に「勤続年数」(重要度10)という順序であることがわかります。
変数重要度とは、予測モデルにおいて各変数がどれだけ重要かを数値で示す指標です。特に予測精度をベースに「その変数がないと予測がどれだけ悪くなるか」で評価します。