データが創る未来

自然言語処理に新風を巻き起こしたWord2Vecとは何か

「イノベーションの予兆」 第4回(最終回)

2014.11.12白ヤギコーポレーションCEO 柴田暁

言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。

 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。

「意味ベクトル」の驚異的な性質

 Word2Vecは、その名前の表す通り、単語をベクトル化して表現するする定量化手法である。例えば日本人が日常的に使う語彙数は数万から数十万といわれるが、Word2Vecでは各単語を200次元くらいの空間内におけるベクトルとして表現する。

 それぞれの単語を200個の要素の組み合わせとして表現するため、このような手法は「分散表現」とも呼ばれている。単語からベクトル表現を作り出す研究は以前にもあったが、それらとの違いは、そのベクトルがただの数学的な存在として以上に、複雑なコンセプトを表現していることにある。実例を見てみるとその可能性が実感できるだろう。

・「男性-女性」を「おじ」や「王」に足すと、「おば」や「女王」になる。つまりこの差分は「男性と女性の違い」を表現している

・「フランス」-「パリ」+「東京」=「日本」などの結果も得られる。「フランス-パリ」は、「その都市を首都とする国」を表現している

・さらにユニークな事例としては、「The Matrix(映画)」-「Thoughtful(考えぬかれている)」+「dumb(馬鹿っぽさ)」=「Blade II(別の映画)」という結果も報告されている

 このように、本来であれば非常に複雑な表現を定量化されたベクトル表現化することが可能になる。その結果、ここに示したような問題の解決において、以前よりも飛躍的な精度向上が実証されている。

Word2Vecを可能にしたもの

 実はWord2Vecは、非常に単純な前提をもとに構築されている。それは「同じ文脈の中にある単語はお互いに近い意味を持っている」というものである。「分散表現」とは、近年ディープラーニングなどの分野でも深く研究されている人工ニューラルネットワークの研究で提唱された考え方で、Word2Vecも人工ニューラルネットワークの研究から生まれた。

 一方で、Word2Vecで使われている手法は、他の手法に比べその内部構造が非常に簡略化されている。ある単語が与えられたときに、近く(前後5―10単語くらい)に出現する他の単語を当てる、という問題の解を、与えられた文章中の単語全てに対して人工ニューラルネットワークに学習させる。似た意味の言葉はお互い近くにあらわれる可能性が高いため、学習を行っていく過程で、徐々に近しい方向のベクトルになっていく。これは本来であれば非常に計算量の多い問題だが、ミコロフ氏らの研究により、その計算効率も劇的に向上されたのである。

簡単に使えることが大きな長所

 この非常に面白い性質と、計算効率の高さから、この研究には昨年の発表以来非常に強い関心が寄せられ、実行プログラムも公開されている。C、Python、Javaなど、様々な言語での実装が開発され、多くの研究者に応用されている。

学習に使われる文書量によって計算に多少の時間はかかるものの、文章をプログラムに渡すだけで動作させることができるため、基本的なプログラミングスキルを持っていれば誰でも簡単に動かすことができる。

 その結果、ミコロフ氏自身が大量の関連論文を書いているだけでなく、自然言語処理の分野全体が沸き立っている。応用に向けた研究はもとより、なぜこの手法によって得られたベクトルがここまでの表現力を持っているのか自体に関する研究も盛んだ。

私自身が使ってみて実感したイノベーションの予兆

 Word2Vecの実用レベルでの本格的な応用はこれからである。応用研究の一つとしては、単語だけでなく、より長い文章のベクトル表現化などの研究が行われている。この研究が成功すれば、文書の分類問題への応用などが考えられ、ニュースサービスなどへの応用が期待される。複数言語間でのベクトルの関係性についての研究も拍車がかかっているようだ。機械翻訳への応用において、翻訳精度の大きな向上への期待がかかる。

 本誌10月号に掲載された「ウエアラブルが商品になるまで 日経BP社の記事データから見える関心動向」という記事の作成に関わった際には、私自身Word2Vecを応用し、「ウエアラブル」という表現がどのような文脈で使われているのかを分析した。各年代における単語の使われ方の変遷を表すための新しい手法をごく簡単に開発することができた。

 今後さらに思いもよらないような応用例が現れてくることは間違いない。ディープラーニングによる画像解析の成果などと同じく、今後のビッグデータ解析における技術的イノベーションの予兆と見ることができるだろう。

※柴田暁氏の「イノベーションの予兆」は今回が最終回です。

印刷

関連記事

日経ビッグデータ関連記事

日経ビッグデータの最新号

8月号特集

「眼」が拓く深層学習ビジネス

保険見積もりを10分で作成、物流センター省人化、ロボットで顧客分析…

年間購読のご案内

申し込む

お問い合わせ