データセット&分析レシピ

変数選択の過程の説明がしやすいステップワイズ法

適切なデータを選ぶ方法(2)

2015.12.08小谷 祐一朗=おたに代表取締役

消費データ Excel Excel

重回帰分析でモデルを作成する際には説明変数を選択しなければならない。適切な変数を選択できることは分析結果に説得力をもたらす。本シリーズ第2回は最もよく利用されているステップワイズ法を解説する。

分析の素材
分析に使うサンプルデータ:ID-POSデータ(カスタマーコミュニケーションズ提供 2014年04月から2014年05月、http://www.truedata.co.jp/)データ
分析に使うソフト:Excel
分析方法:重回帰分析におけるステップワイズ法

 前回は説明変数の選択方法として、変数増加法と変数減少法について説明した。今回はステップワイズ法について説明する。

 ステップワイズ法は最も多く使用されている説明変数の選択方法だと思う。この方法は回帰分析の結果の自由度調整済R二乗値(Excelでは補正R2)、F値(Excelでは有意F)と係数のp値(ExcelではP-値)を見ながら、どの組み合わせが最も当てはまりが良いかを探る方法である。
 
 今回もカスタマーコミュニケーションズ提供のID-POSデータを利用する。まずは、ここからデータをダウンロードして、Excelの分析ツールを使って購入金額と来店頻度の回帰分析をしよう。

 ここでは、補正R2が0.486、有意Fは極めて0に近く、係数である来店頻度のP-値も極めて0に近い。各変数を追加させながら、これらの値を確認し、変数を取捨選択する。係数のP-値が有意性を示し(95%等)、補正R2が大きくなり、F値が大きくならなければ、その変数を採用する。
 
 例えば、ここに「ビール購入者」を追加した結果は次のようになる。

 補正R2は上昇し、「ビール購入者」のP-値は有意性を示している。また有意Fも大きくなっていない。この変数はモデルに採用する。

 さらに、「チューインガム購入者」を追加し場合の結果は次のようになる。

 基準となる3つの指標は、それぞれ条件を満たしているようなので、これも採用である。

 さらに、「購入カテゴリー数」を加えた結果が下記である。

 ここで、「チューインガム購入者」のP-値をみると、有意性を示さなくなっている。この場合は、「チューインガム購入者」をモデルから外し、有意性を示す「購入カテゴリー」を採用する。なお、ここでは補正R2は上昇している。

 以上のことを繰り返しながら、最適なモデルを探していくのがステップワイズ法である。

 下記が筆者が見つけた最適なモデルとなる。

 補正R2は0.55、有意Fも極めて0に近く、全ての係数が95%以上の有意性を示している。回帰式は次のようになる。

 ここでの係数が購入金額に影響を与える要因となる。

 一部の統計ソフトでは機械的にステップワイズ法で変数を選択してくれる機能が備わっている。以前、ある分析で手作業で変数を選択した結果と、機械的に変数を選択した結果が同じだったことがあった。前者の場合、説明を求められた場合に、変数の選択基準を示せるのに対し、後者の場合は「ソフトウェアが選んでくれました」という説明しかできない。どちらの方が説明力があり、信頼がおけるかは明白であろう。分析というのは説明するために行うのである。目的を見誤ってはいけないのである。

 本稿では、ステップワイズ法による回帰分析における説明変数の選択方法を紹介した。ステップワイズ法は一定の基準に基づいて、変数を取捨選択する方法のため、変数選択の過程の説明にも優れたやり方である。自分の手でできるようにするとよいだろう。

印刷

関連記事

日経ビッグデータ関連記事

日経ビッグデータの最新号

8月号特集

「眼」が拓く深層学習ビジネス

保険見積もりを10分で作成、物流センター省人化、ロボットで顧客分析…

年間購読のご案内

申し込む

お問い合わせ