日経BigData

統計・分析を極める

【連載第1回】ニューラルネットの歩んだ道、ディープラーニングの登場で全てが変わった

ディープラーニングのビジネス活用を探る(1)

2015.04.21大野健太=Preferred Networks

ディープラーニングのビジネスへの活用の可能性を探る。初回はディープラーニングの登場がどんな意味で大事件だったのかを解説する。

 機械学習、ニューラルネット、ディープラーニングといった言葉の意味を整理することから始めよう。機械学習は人工知能の一分野で、データの背景にある傾向や法則を探り、現象の解析や予測をすることを目標としている。人間がルールを明示的に与えるのではなく、データから機械自身に法則を学習させるのが特徴だ。ルールで記述しきれない複雑な現象や、季節や時間などで傾向が変わる現象の解析に強みを発揮する。

 ニューラルネットは機械学習で扱われる計算アルゴリズムの1つである。脳を模倣したモデルで、入力層、隠れ層、出力層の3種類の層から成る。入力に対して単純な変換を何回も繰り返し、予測結果などを出力する構造をしている。

 深い構造、すなわち隠れ層を何層も重ねる構造がニューラルネットの精度向上の鍵となることが分かっている。これがディープラーニングという名前の由来でもある。この連載ではディープラーニングは機械学習の一分野を指し、ニューラルネットはそこで扱われるアルゴリズムを指す言葉として用いる。

典型的なニューラルネットワーク(多層パーセプトロン)

困難とその克服の歴史

 ニューラルネットが今日の精度を得るには50年以上を要し、その歴史の中で少なくとも2つの技術的困難に直面した。「XOR問題」と呼ばれるものと、精度問題である。それらを時系列に沿って見てみよう。

 脳を模倣した計算アルゴリズムの研究は1940年代頃から始まる。最初のブームを起こしたのは1958年に米国の心理学者フランク・ローゼンブラットが開発したパーセプトロンである。パーセプトロンは入力層と出力層のみからなるシンプルな設計にも関わらず、学習や予測ができることから当時注目を集めた。

 しかし、米国の人工知能学者マービン・ミンスキーとシーモア・パパートはパーセプトロンの予測性能に関する重大な欠陥を指摘した。それは排他的論理和(XOR)という演算を用いたとある単純な課題については、どんなに理想的に学習させたとしてもパーセプトロンはその予測ができないというものだった。この「XOR問題」がニューラルネット第1の困難である。これで第1次ブームは終わった。

 その後の研究でXOR問題はパーセプトロンに隠れ層を入れれば理論上は解決できることが分かった。さらに、1986年に隠れ層を持つニューラルネットを高速に学習する「誤差逆伝播法」と呼ばれる訓練方法がアメリカの心理学者デビッド・ラメルハートらによって発見されると、第2次ブームが巻き起こった。

 ところが現実には深いニューラルネットは満足な精度を得られなかった。確かに理論上は十分な予測精度があったものの、深いニューラルネットを学習できるほど十分なデータを当時は得られなかったのが原因と言われている。この学習データ不足による精度の不足がニューラルネットの2つ目の困難である。

ニューラルネットブームと冬の時代

大量のデータで復活した

 状況が変わり始めたのは2000年代後半である。この頃になると学習に十分な大量データと、それを処理できる計算機が比較的容易に入手できるようになった。これらの要因に加えて、冬の時代にも着々と進められた技術的進歩が相まって、深いニューラルネットは既存手法を凌駕する精度を達成できるようになった。

 ディープラーニングという言葉が使われ始めたのもこの頃からである。今もディープラーニングで指導的な研究を行うカナダのトロント大学のジェフリー・ヒントン教授は、2006年の論文で層が深いニューラルネットを総称してディープネットワークと呼び、現在は中国のバイドゥに所属するアンドリュー・ング氏は2007年の論文で「高次元データの階層的な表現の学習」にディープラーニングという言葉を用いている。

 ディープラーニングの圧倒的な精度を示す2つの出来事が2012年に起こった。1つは画像認識コンテスト「ILSVRC(ImageNet Large Scale Visual Recognition Challenge)」で、ヒントン教授らのグループがニューラルネットを用いたSupervisionという手法で、1年前の優勝記録の誤り率25.7%から15.3%へと4割も削減し圧勝した。

 もう1つは米グーグルが構築したニューラルネットがYouTubeの動画を学習して、猫を自動的に認識したことである。これらはディープラーニングの威力を強く印象づけ、現在も続くブームを引き起こした。

 ヒントン教授らが優勝したコンテストで使われたデータセットを使って今も画像認識の精度が競われている。特に2014年8月から半年間で、グーグル、バイドゥ、米マイクロソフトがいずれもディープラーニングの手法で次々に記録を更新した。現在の誤り率の最高記録はグーグルの報告した4.9%である。諸説あるがこれは人間の認識精度を甘く評価した誤り率5.1%を既に超えている。

常識を覆すアプローチ法

 精度の高さだけではなく、それを達成した方法も衝撃的だった。通常、機械学習で何らかの課題を解かせようとするとき、入力データにアルゴリズムを適用する前に「特徴抽出」と呼ばれる操作を施す。特徴抽出とは動画像や文章などの膨大で非定型な入力データから予測に効くと思われる特徴を取り出す作業である。精度を上げるには入力データの性質や課題の内容を反映した特徴抽出の方法が肝となる。そのため、問題ごとに特徴抽出方法を人間が選択するのが常識であり、入力データや課題に応じた特徴抽出の手法やノウハウが開発されてきた。

 ところが、ディープラーニングでは特徴抽出がアルゴリズムに組み込まれ、抽出すべき特徴の選択自体も機械に学習させる。例えばヒントン教授らのSupervisionでは入力画像には最低限の前処理のみを行い、各ピクセルの画素値をそのままニューラルネットに与えていた。

 下の図は画像認識を行うニューラルネットの学習結果を可視化したものである。入力に近い層では線や円などの単純な図形を抽出し、出力に近い層ではそれらを組み合わせた複雑な図形を認識する様子が見て取れる。人手が必要と思われた特徴抽出を自動化し、その上で認識精度を向上させたディープラーニングの登場は従来の手法を覆す大事件だった。

ニューラルネットが抽出した特徴の可視化
顔認識を行うニューラルネットの学習結果の可視化。入力に近い層では線や円など単純な図形を、真ん中の層では顔のパーツを、出力に近い層ではパーツを組み合わせて顔全体を抽出している様子が分かる。
(Honglak Lee, Roger Grosse, Rajesh Ranganath, and Andrew Y. Ngによる”Unsupervised Learning of Hierarchical Representations with Convolutional Deep Belief Networks”(http://web.eecs.umich.edu/~honglak/cacm2011-researchHighlights-convDBN.pdf)から許可を得て引用)

実用化は既に始まっている

 現在のところ、ディープラーニングの応用は特定の課題を精度よく解くことに向けられている。3つの方向性が顕著だ。1つ目は自社が提供するサービスの精度を高めること。米アップルの音声認識システム「Siri」、グーグルやバイドゥの画像検索エンジンなどが典型例である。

 2つ目はデータ解析のシステムやサービスの事業者にディープラーニング技術を提供する形態である。自然言語処理と画像認識へのディープラーニング応用で知られるリチャード・ソッチャー氏が立ち上げた米メタマインドや、2013年のILSVRCで優勝した技術を基にマシュー・ジラー氏が立ち上げた米クラリファイ(Clarifai)はこの例である。

 3つ目はディープラーニングを始めとする機械学習ベースのデータ解析インフラを提供する事業者である。我々Preferred Networksはこの方向性に近い。

大野 健太| Kenta OONO
2011年東京大学大学院数理科学研究科修士課程修了。同年Preferred Infrastructureに入社。2014年からPreferred Networksに移り、ディープラーニング関連の研究開発に従事。