データセット&分析レシピ

多重共線性とVIF統計量で説明変数間での相関を調べる

適切なデータを選ぶ方法(3)

2015.12.09小谷 祐一朗=おたに代表取締役

消費データ Excel 分析

重回帰分析でモデルを作成する際には説明変数を選択しなければならない。適切な変数を選択できることは分析結果に説得力をもたらす。シリーズ最終回となる第3回は、説明変数間の相関を示す多重共線性とVIF統計量を説明する。

分析の素材
分析に使うサンプルデータ:ID-POSデータ(カスタマーコミュニケーションズ提供 2014年04月から2014年05月、http://www.truedata.co.jp/)データ
分析に使うソフト:Excel
分析方法:VIF統計量

 本シリーズ第2回まで、変数の選択方法について述べてきた。今回は多重共線性とそれを示すVIF統計量を取り上げる。多重共線性は説明変数間での相関が高いことを意味する。説明変数間の相関が高いと、正しく計算ができなくなるため、分析の際は気をつけなければならない。

 重回帰分析における回帰係数は最小二乗法という推定手法で算出している。これは誤差の二乗和(残差平方和)を最も小さくするβを計算する方法である。このβは次の計算で求められる(興味のある方はExcelで行列計算を行ってみるとよいだろう)。

 この中でX'X-1は逆行列を求める計算である。逆行列は次の公式で求められる。

 つまり、相関が高いと、この時に分母が限りなく0に近くなってしまい、計算ができなくなってしまうのである。これはβの信頼を損なうものである。

 これをチェックする指標がVIF統計量である。次の式で求められる。

 ここで、ρは相関係数を表す。

 Excelでは次のように行う。今回は、カスタマーコミュニケーションズ提供のID-POSデータの中から「来店頻度」「購入商品数」「購入カテゴリー数」を使用しよう。こちらからデータをダウンロードしよう。
 
 分析ツールを使用して、3つの相関係数を算出すると次のようになる。

 それぞれ、相関係数は高いようである。相関係数の二乗値は下記のようになる。

 相関係数の二乗値を使って、VIF統計量を算出すると次のようになる。

 一般的にVIF統計量が10以上であれば、多重共線性が存在している可能性がある。こういった場合は片方の説明変数をモデルから外す等といった対応をすることになる。

 本稿では、まず多重共線性と、計算における影響について述べた多重共線性とその可能性を示すVIF統計量について説明した。多重共線性は、分析になれていてもやってしまいがちである。そのため、VIF統計量を算出する癖をつけたいものである。

印刷

関連記事

日経ビッグデータ関連記事

日経ビッグデータの最新号

12月号特集

データがつくる新“爆買い”

成長市場のインバウンドに照準を合わせる

年間購読のご案内

申し込む

お問い合わせ