データセット&分析レシピ

「グラフ」で視覚的に確認、比較するのが第一歩

ビールとおむつの実証分析(1)

2015.10.29小谷 祐一朗=おたに代表取締役

消費データ 可視化 Excel

「おむつを買った人はビールも買う」といえば、データマニングでは有名な事例である。本テーマを実際の家計調査データから5回に分けて検証する。第1回はグラフによる可視化で、2つのデータの関係性をおおまかに把握する。

分析の素材
サンプルデータ:家計調査日別品目分類(ビール、おむつ:2015年04月及び2015年05月)/データ出典:総務省統計局『家計調査結果』【ダウンロード】
ソフト:Microsoft Excel
分析方法:可視化

 「おむつを買った人はビールも買う」といえば、データマイニングでは有名な事例である。この分析結果に基づき、おむつとビールを並べて陳列した結果、売上が上昇したとされている。しかし、調べてみると、実は売れたとされる事例は店名や時間、曜日が異なる複数のパターンがある。バリエーションの多さは「POSデータを解析した際に得られる一般的な現象」であることを示唆している。

 この現象がどの程度正しいかということについては、直接POSデータを分析すれば分かる。ただし、POSデータはレシート単位の情報であり、データの前処理に時間がかかってしまう。また、自社データのみが分析の対象となるため、それが自社のキャンペーン等の影響なのか、普遍的な現象なのかを把握しづらい。

 この場合、官公庁が公表している統計データを使えば、前処理の時間を大幅に節約し、示唆を得ることができる。ある程度重要な事実やインサイトを得てから、実際のPOSデータを分析した方が効率的である。

 例えば、総務省統計局が提供する家計調査(全国約9000世帯の毎月の収入・支出等を調査)のデータを分析することである。店舗における売上は、世帯における支出であり、表裏一体である。本稿では、家計調査の品目分類による2015年4月と2015年5月の日別支出のデータを用いて、ビールと紙おむつの関係を探りながら、分析方法を紹介していく。なお、日別支出のデータは全国の平均値であることに注意されたい。

ビールと紙おむつへの支出を比較する

 どんなデータでもそうなのだが、まずは目で見て確認することが大事である。本記事用に用意したサンプルのCSVデータをダウンロードしていただき、Excelで開くと、A列に月、B列に日、C列に曜日、D列にビール、E列には紙おむつの日別データがある。

 まず、単純にExcelのグラフで折れ線を選択して、D列とE列を折れ線グラフで表示してみると下記のようになる。

 ビールと紙おむつの双方から季節性が読みとれる。支出が大きくなるのは、土曜日と日曜日である。

 次に、時系列データなので、当日のデータと前日のデータの差をグラフにしてみると次のようになる。例えば2日の値から1日の値を引いたものである。これを差分という。F列を「ビール差分」、G列に「紙おむつ差分」と入力して、前日と当日のデータを差を入力していく。

 これをグラフ表示すると下記のようになる。

 差分を取ったデータも動きが似通っていることがわかる。さらに、差分をとっていないデータと差分をとったデータで散布図を描いてみると下記のようになる。

 双方ともビールへの支出が大きくなれば、紙おむつの支出も大きくなるという関係が確認できる。これを正の相関関係という。この図から、よく言われる「ビールとおむつの関係」が存在する可能性を読み取ることができる。

 時系列データのため注意は必要だが、折れ線グラフと散布図を描くだけでも、周期性を確認したり、どのような関係があるかについての示唆は十分得られるのである。

印刷

日経ビッグデータの最新号

3月号特集

オンリーワンデータで成長戦略を描く

現場に出向けば、価値あるデータを創出できる

年間購読のご案内

申し込む

お問い合わせ

日経ビッグデータのサイトへ

本サイトは更新を終了しました

 「日経ビッグデータ」は2018年4月2日、「日経クロストレンド」に名称を変更しました。データ活用やAI関連の最新記事は日経クロストレンドでお読みください。

 本サイトは更新を終了し、19年3月31日に閉鎖する予定です。長い間のご利用、ありがとうございました。