調整済みR2乗は、機械学習や統計分析において「モデルの予測精度を測る指標」の一つです。普通のR2乗(決定係数)の改良版で、変数の数が増えても正確にモデルの良さを判断できる優れた指標です。
例えば、給料を予測するモデルを作る際に、「年齢、経験年数、学歴、職種…」とたくさんの要素を追加しても、本当にモデルが良くなったのかを適切に判断してくれます。
まず、通常のR2乗には以下のような問題があります:
R2乗値は変数が増えれば、それが役に立っているかどうかに関係なく上昇する傾向がある
変数選択の際の指標として使いにくい
調整済みR2乗は、この問題を以下のように解決します:
調整済みR2乗はモデルの説明力に貢献しない変数が足された場合には変化がないか下がる
変数追加の有効性をチェックするにはR2乗より有用
通常は0から1の間で、1が最高の値
統計ソフトでは、以下のように調整済みR2乗の情報を確認できます:
上記の画面では、調整済みR2乗の「i(Information)」ボタンを押すことで、指標の詳しい説明を確認することができます。説明には「予測変数が増えれば増えるほどR2乗は大きくなる傾向があるのに対し、調整済みR2乗はそういった傾向を修正します」とあります。
給料予測の例で、実際に変数の数を変えた時の調整済みR2乗の変化を見てみましょう。
入社日、退社日、部署以外の全ての変数(35個の変数)を入れた時:
R2乗:0.9443
調整済みR2乗:0.9429
変数重要度で重要とされた職位、職種、勤続年数の3つに絞った結果:
3つの変数だけの結果:
R2乗:0.9434
調整済みR2乗:0.9431
比較結果:
全ての変数:R2乗 0.9443 → 調整済みR2乗 0.9429
3つの変数だけ:R2乗 0.9434 → 調整済みR2乗 0.9431
重要な発見:
R2乗値はあまり変わっていない(0.9443 → 0.9434)
調整済みR2乗値は増加!(0.9429 → 0.9431)
これは、無駄な変数を取り除くことで、実際のモデル性能が向上したことを示しています。
調整済みR2乗の計算式は以下の通りです:
調整済みR2乗 = 1 - (1 - R2)(N - 1) / (N - p - 1)
ここで:
R2:R2乗
N:サンプル数
p:予測変数の数
予測変数の数pが0だとすると、調整済みR2乗は通常のR2乗と一致します。
しかし、予測変数の数pが1より大きくなると、分母が減少し、全体として調整済みR2乗は減少するようにデザインされています。
つまり、予測変数の数pが増えるほどR2乗は減少するようにデザインされているのが調整済みR2乗です。この調整を「ペナルティ」と呼んだりします。
調整済みR2乗は、R2乗が「ペナルティ」による減少分を打ち消すほどに上がっていた場合にのみ、上がります。
調整済みR2乗は、以下の特徴を持つ優れたモデル評価指標です:
変数の数による影響を調整:無駄な変数を追加してもスコアが上がらない
真のモデル改善を検出:本当に有用な変数だけがスコア向上に貢献
変数選択の指針:どの変数を残すべきかの判断材料になる
R2乗の改良版:従来のR2乗の問題点を解決した指標
給料予測の例では、35個の変数から3個の重要な変数に絞ることで、調整済みR2乗が0.9429から0.9431に改善されました。これは、無駄な変数を除去することで、より良いモデルが作れたことを示しています。
調整済みR2乗を使うことで、「変数を増やせば良い」という単純な考えから脱却し、本当に価値のある変数だけを使った効率的なモデルを構築できるようになります。