けむブログ

データ分析に関する気付きや学びを記録するブログ

多重共線性について調べたメモ

多重共線性とは

モデル内の独立変数が他の独立変数と相関しているときに起こる状態

多重共線性が起きると

多重共線性があると、逆行列の計算の部分で、いわゆる「ゼロ割」(分母に0が来る)問題が発生

jojoshin.hatenablog.com

解決策

まず相関行列で確認する

import matplotlib.pyplot as plt

corr_mat = cluter_log.corr(method='pearson')
corr_mat

import seaborn as sons
sons.heatmap(corr_mat,
            vmin=-1.0,
            vmax=1.0,
            center=0,
            annot=True, # True:格子の中に値を表示
            fmt='.1f',
            xticklabels=corr_mat.columns.values,
            yticklabels=corr_mat.columns.values
           )
plt.show()

f:id:kemuex:20180904140028p:plain

→今回は説明変数同士の相関は見られなかった

※参考 https://blog.amedama.jp/entry/2017/04/18/230431

※ 多重共線性が見られる場合は、解決策としてリッジ回帰(正則化回帰の一つ)を行う。  正則化項を付け加えることでこの多重共線性の問題を解決する

リッジ回帰による多重共線性の問題回避について - 統計学と疫学と時々、助教生活