データセット&分析レシピ

データの自己相関を調べる

時系列データの分析を家計調査で学ぶ(2)

2015.11.02小谷 祐一朗=おたに代表取締役

消費データ 可視化 Excel

様々な場面で用いられる時系列データの分析には、通常の分析と異なる部分がある。時系列データの処理や分析手法を6回に分けて紹介する。第2回は自己相関とデータ処理についてである。

分析の素材
サンプルデータ:家計調査日別品目分類(キャベツ:2015年4月及び2015年5月)/ データ出典:総務省統計局『家計調査結果』【ダウンロード】
ソフト:Microsoft Excel
分析方法:相関分析

 時系列分析というと、難しいイメージがあるが、日常生活においては「時系列」は話題になりやすい。例えば、「この冬のボーナスは期待できる」「今日は二日酔いだ」というのは時系列データのことである。

 当たり前のことだが、時系列データは「過去」と「現在」、そして「未来」があり、これらがつながっているデータである。昨日の値は今日に影響し、今日の値は明日の値に影響することは容易に想像できると思う。前の値によって、前の前の値が、現在の値に影響をしていることを「自己相関」と言う。例えば、飲みすぎた日から、日数が経てば経つほど、体調が回復していくというのはアルコールの影響が徐々に弱まっていくというある種の相関を表している。

 このような時系列データの特性は、通常のクロスセクションデータと異なるため、本格的に分析を行う際には「前処理」をする必要がある。今回は時系列データを扱う際の注意点について紹介する。

 まずは、家計調査のキャベツへの支出を実際にダウンロードして、自己相関を調べてみよう。5日前から1日ずつずらしたデータが入っている。今回はExcelの分析ツールから相関行列を算出する。

 まずは、「ツール」からデータ分析を選ぶ。

 次に、データ分析から「相関」を選択する。

 相関行列を計算する範囲を選択する。

 新しいワークシートに相関行列が表示される。

 相関行列をみると、1日前のデータは0.396になっており、以降のデータも0.1から0.2となっている。

 グラフにすると下記のようになる。

 つまり、キャベツへの支出は前日のデータと相関することがわかる。このような、自己相関がある時系列データで回帰分析を行うと、決定係数が非常に高く出る場合がある。こういった場合の回帰モデルは有用とは言えないので注意しなければならない。

 この場合、対策として差分(当日と前日のデータの差)を計算することが多い。I列からN列までに差分データを作り、同じように相関行列を計算してみよう。

 相関行列は次のようになる。

 また、自己相関のグラフは下記のようになる。

 1日前の自己相関は-0.27になり、相関の程度が弱まっていることがわかる。

 統計分析は正規分布を仮定していることが多いのだが、自己相関があるデータは正規分布とならない場合がある。そのため、時系列データの場合は、前処理を行ってデータを仮定に合わせる必要がある。時系列解析においては、このような前処理を行わずに、回帰分析等を行うと、非常に見栄えのよい結果を得られる場合がある(例えば、日経平均との相関が0.9等である)。

 もちろん、そのようなこともあるかも知れないが、経済データや社会におけるデータにおいては、実際はかなりまれである。多くの場合、ヒストグラムを描いて正規性をチェックしたり、差分をとったりすると、途端に通常のデータと同じになる。時系列データの性質と処理方法を知っているだけでも、誤った解釈を招きかねない分析結果を生むことを避けられるのである。

印刷

関連記事

日経ビッグデータ関連記事

日経ビッグデータの最新号

11月号特集

10万人目指す企業AI人材

データ活用人材を呼び込み、ビジネスに生かす仕組み作りに挑む

年間購読のご案内

申し込む

お問い合わせ