データセット&分析レシピ

「重回帰分析」で実は相関していない変数を洗い出す

ビールとおむつの実証分析(5)

2015.10.29小谷 祐一朗=おたに代表取締役

消費データ 分析 Excel

「おむつを買った人はビールも買う」といえば、データマニングでは有名な事例である。本テーマを実際の家計調査データから5回に分けて検証する。第5回は重回帰分析によって、曜日などの要因も分析対象に加えてみよう。

分析の素材
サンプルデータ:家計調査日別品目分類(ビール、おむつ:2015年04月及び2015年05月)/データ出典:総務省統計局『家計調査結果』【ダウンロード】
ソフト:Microsoft Excel
分析方法:重回帰分析

 前回の単回帰分析は説明変数が1つの場合の回帰分析である。今回の重回帰分析は説明変数が2つ以上ある回帰分析である。説明変数がk個ある場合、次のような関数になる。

y=β0122+…+βkk

 ビールを被説明変数、紙おむつを説明変数にした場合、例えば「豚肉への支出」等が2つ目の説明変数になる。他に、曜日等を変数にすることもできる。

 豚肉への支出等の数値データであれば、そのまま説明変数に加えるだけだが、ここでは以前のクロス集計で見られた傾向を参考にして、曜日、特に週末を説明変数として加えた重回帰分析をしてみる。

 まず、曜日は文字なので、これを数値データとして作成する。こういった操作で作成される説明変数はダミー変数と呼ばれる。性別を考えると分かりやすい、男性の場合1、 女性の場合は0となる。ここでは、週末である土曜日と日曜日を1、それ以外を0にすると下記のようになる。名前は「週末ダミー」とした。

 これをExcelの分析ツールで単回帰分析の場合と同じように変数を設定する。その際に、入力X範囲は紙おむつと週末ダミーの双方の列を選択する。

 次のような結果が出力される。

 これを前回同様に回帰式に当てはめると次のようになる。

ビールへの支出=20.264+0.325×紙おむつへの支出+14.486

 ただし、この式における最後の14.486は週末(土曜日または日曜日)の場合のみ加算されることに注意が必要である。つまり、土日はビールへの支出がアップするということである。

 それでは、Excelが計算した回帰分析の結果を説明していこう。まず、回帰分析の切片と傾きの数値の信頼を表す指標がE17、F18、E19のP-値である。ここが0.05以下であれば、95%有意(統計的に意味がある水準)とされる。ここが0.1以下の場合は90%有意、0.01以下であれば99%有意、0.001以下であれば99.9%有意である。切片の4.42361E-06というのは0.0000042361を表す。週末ダミーのP-値も同じである。

 また、B5とB6のセルにある重決定Rと補正R2(自由度調整済R二乗と呼ばれる)は、回帰式全体の説明力を表す。これは0から1の間で表される指標であり、1に近いほど説明力が高いとされる。

 重決定Rは説明変数の数が多くなるほど高くなるという性質を持っているので、実際は補正R2を参考にする場合も多い。これらの値は0.7以上であれば高く当てはまり、0.4以上であれば中程度の当てはまり等と考えられることが多い。ただ、実際はマーケティングの世界では0.3程度でもよいし、工学の世界では0.99以上でないと意味がないというケースもあるように分野によるので、似たような分析を参考にしてみるとよいだろう。

 ここから解釈できることは、まず単回帰分析と違い、紙おむつの係数は統計的に有意ではない。反対に、週末ダミーの結果からは、週末になるとビールへの支出が上がることは統計的に有意である。つまり、ビールの支出は週末に増えるのであり、紙おむつへの支出が増えるとビールへの支出が増えるわけでないということである。

 重回帰分析の最も良い点の一つは、変数を増やすことでこういった実際は相関していない変数を洗い出すことができることである。

 ただし、これは家計調査を使った2015年4月と2015年5月に限定された全国的な傾向であるし、時系列データを回帰分析する場合は、差分データを使うことが多い。これは実際にデータを使ってやってみてほしい。この結果が、実際のPOSデータの分析に着手する動機となる。

印刷

関連記事

日経ビッグデータ関連記事

日経ビッグデータの最新号

7月号特集

イノベーション“難民”を救え

スタートアップと連携し、AI・IoTの死の谷を飛び越えるための5カ条

年間購読のご案内

申し込む

お問い合わせ