統計・分析を極める

最も重要で、最もよく使われ、最も難しい分析手法の一つ「クラスター分析」

2015.07.24山川 義介=ALBERT取締役会長

ビッグデータ時代の適切なクラスター(=集団)分析法を学ぶ本講座の第1回。クラスターの分類方式に何を選ぶかが、分析を進める上で最初の大切なポイントとなる。

 クラスター分析は、ビッグデータの分析、その中でもOne to Oneマーケティングに用いる分析手法としては、最も重要な地位を占めており、最もよく使われる手法の1つだ。前号の「達人に学ぶ課題解決(実務で使う分析手法は5つで十分)」にも挙げられている手法だ。情報が氾濫するなか、いかに消費者にとって有用な情報のみを提示するか、いかに施策のコンバージョンを上げることができるかが最大の関心事だが、そのためには、顧客を緻密にクラスタリングし、購買を予測し、的確なアクションを打つことが求められる。

 クラスター(cluster)とは、英語で「房」「集団」「群れ」のことで、似たものがたくさん集まっている様子を表す。「クラスター分析」とは、異なる性質のものが混ざり合った集団から、互いに似た性質を持つものを集め、クラスターを作る方法だ。対象となるサンプル(人、行)や変数(項目、列)をいくつかのグループに分ける、簡単にいえば「似たもの集めの手法」である。

良いクラスター分析の条件

 良いクラスター分析とは、分けた「塊」に含まれる要素同士は似ていて、その「塊」の特徴は、別の「塊」の特徴とはなるべく似ていないものとされる。クラスター分析は、あらかじめ分類の基準が決まっておらず、分類のための外的基準や評価が与えられていない「教師無しの分類法」だ。つまり、分類してみてから、どうしてそのように分類されたかを分析する方法である。従って、データをあらかじめ分かっている基準で男女別や年代別に分けた「塊」をクラスターとは呼ばない。

 クラスター分析を始めるときに決めなくてはならないことは、一般的には以下の4つで、それぞれ、どれを選択するかがポイントになる。

1.グループ分けの対象
 サンプルを分類するのか、変数を分類するのか
2.分類の形式(種類、生成)
 階層的方法か非階層的方法か
3.分類に用いる対象間の距離(類似度)
 ユークリッド距離、マハラノビス距離、コサイン類似度(距離)…
4.クラスターの合併方法(クラスター間の距離の測定方法)
 ウォード法、群平均法、最短距離法、最長距離法…

 「1.グループ分けの対象」は目的が決まれば自動的に決まる。「2.分類の形式」はビッグデータにおいては非階層的方法を用いることが多いので迷うことはほとんどない。「4.クラスター合併方法」も非階層的方法では選択する必要はなく、最も難しいのが 「3.分類に用いる対象間の距離」の選択だ。クラスター分析は「似たもの集めの手法」だと述べたが、「似ている」または「似ていない」をどう定義するかが、ビッグデータにおけるクラスター分析では、最も大きな問題にも関わらず遅れている分野といっても過言ではない。

 アンケートデータなどの密なデータと異なり、購買データは非常にスパース(疎)である。このようなデータを扱う場合、そもそも平均や分散に意味を持たなかったり、類似度を表す距離を一般的なユークリッド距離を用いたのではうまくいかなかったりという問題がある。この「距離問題」については次回で詳しく述べる。

 クラスター分析は手法や指定するパラメータの種類が多く、「クラスター分析のクラスター分析をしなくてはならない」と言われるほどで、「これが最適」という選択方法や「これが最高」というクラスターの定義もない。例えば、最適なクラスター数はいくつかという質問がよくあるが、正解はない。そのほか、初期値をどう設定するかによって結果が異なるというやっかいな問題もあり、とても難しい分析手法の1つに数えられる。

印刷

関連記事

日経ビッグデータ関連記事

日経ビッグデータの最新号

12月号特集

データがつくる新“爆買い”

成長市場のインバウンドに照準を合わせる

年間購読のご案内

申し込む

お問い合わせ