by 富士通

機械学習の魅力とワナ

2015.03.16

PR

ビッグデータという言葉が生まれて数年が経った。最近では、「ビッグデータから新たな価値を創出」といった類の事例報告が毎日のように紙面を賑わすようになってきている。これは、多くの企業や自治体で、具体的なビッグデータの活用が進んでいることの表れである。そして、これらの多くの事例で利用されている技術に機械学習がある。本稿では、機械学習の魅力とワナを紹介し、今後の展望を述べる。

ビッグデータの花形技術:「機械学習」

 機械学習とはもともと、人間が経験から学習する過程をコンピュータ上で実現することを目指した、人工知能の主要な研究分野である。現在では、数値やテキスト、画像、音声などの様々なデータから、規則性やパターン、知識などを発見し、現状の把握や将来を予測するのに利用されている。人間が明示的にプログラムするのではなく、データからコンピュータが自動的に見つけ出すところがこの技術のポイントである。

 機械学習は一般的に、同じ種類のデータであれば、データ数の増加に伴い精度を向上させることができる。従来はデータ数も少なく実用上十分な精度が出なかったため、適用範囲も限定されていたが、膨大な数のデータを活用できるビッグデータ時代にあって、まさに花形の技術として活用が進んでいる。

 以下に、機械学習の魅力をわかりやすい事例で2つ紹介する。

コンピュータ将棋:機械学習で名人に迫る

 近年のコンピュータ将棋は、人間のプロ棋士に肩を並べるほど強くなっている。なぜこれほどまでにコンピュータ将棋は強くなったのか。答えは機械学習の適用にある。

 コンピュータ将棋は、将棋の強い人の大局観や経験に基づくノウハウをプログラムすることで強くなってきた。しかし、主流であったこの方法とは全く異なるやり方がコンピュータ将棋にブレイクスルーを起こした。それが、機械学習を用いた将棋ソフトである(図1)。

図1 コンピュータ将棋ソフトの進化

 このソフトは、プロ棋士の棋譜データ(初手から終局までの着手を記したデータ)から、局面の評価関数を学習させる。局面評価関数とは、ある局面における優劣を点数で表すための関数であり、いわば将棋の強さの肝である。近年の局面評価関数は、6万局を超える棋譜から1億にもおよぶ最適なパラメーターを自動学習している。

 機械学習を用いた将棋ソフトは、将棋の高段者が考案したわけではない。そうでなくても、プロ棋士に比肩する将棋ソフトを作れたことは、機械学習の大きな魅力を示している。

ヘルスケア:機械学習で生活習慣病の発症を予見する

 次に、生活習慣病の発症リスクの予測に機械学習を適用した事例を紹介する。

 多くの健康保険組合において、医療費の疾病別支出に対する生活習慣病の占める割合は非常に高く、生活習慣病の予防は、従業員の健康推進に加えて、医療給付金抑制のための重要な課題となっている。我々は、将来の発症リスクを高精度に予測することができれば予防に役立つと考え、実証実験を行った。

 実証実験では、富士通の従業員26,000名の過去3年分の健康診断データとレセプトデータから、1年後の糖尿病の発症リスクを予測した。機械学習を適用することで、極めて高い精度で予測できることが分かったが、別の観点でも非常に興味深い結果を得た。

 厚生労働省「標準的な健診・保健指導プログラム【改訂版】(平成25年4月)」によると、血糖検査に関する受診対象の基準値は、空腹時血糖値が126mg/dl以上、HbA1c(ヘモグロビンA1c)値が6.5%以上と定められている。しかしながら、これら2つの項目だけを用いた場合、いくらチューニングしても実用上十分な精度を出すことはできなかった。

 我々は、糖尿病とは一見関係のないと思われる他の健康診断項目やレセプトデータを利用することで(図2)、これら2つの項目を使った場合よりも予測精度を25%以上も向上させることに成功したのである。医学的な知見に基づいているわけではないが、一見関係のないと思われる項目を組み合わせることで、予測精度が向上することは機械学習の魅力と言える。

図2 糖尿病の発症リスクの予測

機械学習のワナ

 しかし、現在の機械学習は万能な技術なのであろうか。データさえあれば、機械学習を適用することで必ず十分な効果をあげることができるのであろうか。筆者の答えはNoである。実際、オープンソースの機械学習ライブラリを使ってみたが全く精度が上がらない、といった声もよく聞かれる。

 技術的な観点から見た場合、これにはいくつかの理由がある。

 まず、機械学習の分野にはNo Free Lunch定理という有名な定理がある。これは平たく言うと、どんな問題やどんなデータに対しても最高の精度を出せる万能な機械学習手法は存在しないという定理である。

 機械学習と一口に言っても様々な手法が存在し、問題やデータによってそれぞれの手法の精度はまちまちなのである。機械学習の適用で陥りやすいワナは、ある特定の機械学習手法だけを適用するのは極めて危険だということである。機械学習で最高の精度を手に入れるためには、様々な手法を検証してみる必要がある。

 次のワナは、機械学習の適用で最も重要な作業の1つである特徴選択にある。特徴とは、機械学習に入力するデータ項目のことであり、この特徴をどう選ぶか、どう作るかによって機械学習の精度は大幅に変化する。一般的には、データベースのデータ項目や時系列データそのものを特徴として機械学習に適用しても精度が出ない場合がほとんどである。これは機械学習の適用で頻出するワナである。先生が生徒の能力を高めるために良い教材を与えるように、機械学習にもよい特徴を与えなければうまく働かないのである。

 機械学習の手法や特徴の選択は試行錯誤を伴い、一般的に非常に時間がかかる。また、高度なノウハウや大規模な計算機環境が必要とされる場合も多い。機械学習の適用で行き詰った場合は、専門のコンサルティングを受けるのも1つの手といえる。例えば、富士通は、ビッグデータ分析の専門家であるキュレーターが上記の問題解決を行う「データキュレーションサービス」というコンサルティングサービスを提供している。

機械学習の今後

 今後、ビッグデータは増加の一途を辿り、機械学習のビジネス適用がさらに加速することは間違いない。現在は過去データに機械学習を適用することで成果が見込めることが分かった、という実証的な事例が多いが、今後はビジネスの現場にどんどん機械学習が入り込んでいき、機械学習の開発というより運用に重点が移っていくと考えられる。

 また、機械学習自体の技術も発展してきている。脳機能を模したニューラルネットワークに大きな進展があり、並列計算技術などを活用することで、従来は困難であった多層のニューラルネットから学習することを可能にした深層学習(Deep Learning)という技術が誕生している。深層学習は、画像認識や音声認識などのコンペティションで桁違いの精度を出しているだけではなく、特徴選択自体をコンピュータが行う可能性を示している。ビジネス適用の事例も出始めており、ここ3年のうちには、画像認識や音声認識のみならず広い分野での活用が本格化すると筆者は見ている。

参考資料
FUJITSU Intelligent Data Service データキュレーションサービス
 http://jp.fujitsu.com/solutions/convergence/service/curation/
岡本 青史
株式会社 富士通研究所
ソーシャルイノベーション研究所
インテリジェントコンピューティング部
主席研究員

1991年、株式会社富士通研究所入社。機械学習や推論、情報検索等の研究開発に従事。2011年、富士通株式会社に異動し、ビッグデータ分析業務に従事。2014年、富士通研究所に復職後、人工知能の研究開発に従事。

印刷

プロフィール

富士通株式会社は、1935年6月20日に設立されました。通信システム、情報処理システムおよび電子デバイスの製造・販売ならびにこれらに関するサービスの提供をしています。
強いインフォーメーション・テクノロジーをベースに、高性能・高品質なソリューションを創出、提供します。
http://www.fujitsu.com/jp/

日経ビッグデータの最新号

8月号特集

「眼」が拓く深層学習ビジネス

保険見積もりを10分で作成、物流センター省人化、ロボットで顧客分析…

年間購読のご案内

申し込む

お問い合わせ