今月のビジュアライゼーション

ロボットは2035年、人工知能は2045年… 記事から情報抽出し、先端技術の未来を予測

2015.09.01関根 聡=ニューヨーク大学研究准教授/ランゲージ・クラフト代表

ビジュアライゼーション

日経BP社の5年分の記事から、先端技術の未来予測の情報を抽出して整理した。8つの先端技術キーワードの登場数と、共に頻出する言葉をビジュアライズして、技術の将来性を探る。

 未来予測は、特にビジネスを行う人々にとっては喉から手が出るほど欲しい情報である。例えば、「クラウド技術の市場価値の推移」「ロボット技術の10年後」「自動運転はいつ実用化されるか」などの情報をいち早く手に入れることができたら、ビジネスの方向性を的確に判断したり、投資の決定をより確度高く行ったりできる。

 米国では、大統領選挙結果や犯罪発生の予測がかなり高い精度で実現され、それが様々な形で世の中を変えている。この基になるのは、ツイッターなどから民衆の声を集計し、それによって未来予測を行う技術だ。

 こうした予測より困難なのは、「自動運転の実現はいつか」といった、ピンポイントな事柄の未来予測である。正確な予測のための方策は、何も知らない群衆によるツイッター上での発言の集約ではなく、自動運転技術を開発している企業が未来をどのように予測しているかを収集し、その情報をまとめあげることである。

 例えば、各企業の自動運転実用化に関する予測は様々なサイトに散らばっている。それを見つけ出して、予想の内容を構造化することは、自然言語処理の情報抽出という技術で実現する。未来予測の言及を数多く集め、例えば、予測年、対象、予測者、規模、内容のような構造化したデータで取り出し、それをまとめて提示する。

 下の図では、東北大学の乾・岡崎研究室の学生と協力して、日経BP社の過去の5年分の記事データに対して情報抽出を実行し、8つの先端技術についての未来予測を集め、その数と頻出するキーワードをビジュアライズしたものである。各技術の未来予測がいつ頃盛り上がりを見せているか、その時にどのような話題が取り上げられているかということが容易に理解できる。

 そして、そのピークにおいて抽出された情報を見ると、どのような未来予測がされているかが明らかになる。いくつかの例を挙げると以下の通りであった。

・2045年に「人工知能」が盛り上がっているが、これは「技術的特異点(計算機の知性が人間を超える時点というレイ・カーツワイル氏の予測)」に関連した言及による
・「自動運転」は、いくつかの企業の自動運転の実現の予想が集まる2020年に盛り上がりを見せる
・「クラウド」は短期的には実用化を軸に非常に注目されているが、長期的にはコモディティー化され、あまり言及されない
・「IoT」も比較的に短期的な注目度が高い
・「ロボット」は産業、福祉、建設、農業その他の幅広い応用分野に対して、長期的に期待されている

 こうした貴重な情報を発見するには、Webにある大量の文章から、ピンポイントに有用な情報を抽出し構造化させる技術が必要だ。情報抽出はビッグデータと付き合うための重要な技術であり、大学はもとより最先端の米国企業でも深く研究されている。

 この技術は様々な方向に発展していくと予測している。未来とは過去の経験から学ぶものである。従って、過去の事例に対しても同様に情報抽出の技術を適用して、様々な情報を整理することにより、未来予測の精度を上げることができる。SNS、新聞記事、百科事典、企業のプレスリリースなど様々な情報源と結合させて、より付加価値の高い情報を提供する。

 情報の抽出、集約により、ピンポイントな事柄に対する有益な情報が容易に入手できる世界を実現し、よりスマートで効率的な情報へのアクセス手段が実現されていくと考えている。

関根 聡 | Satoshi SEKINE
ニューヨーク大学コンピューターサイエンス博士。ニューヨーク大学研究准教授。ランゲージ・クラフト代表。専門は自然言語処理、自然言語処理学会理事

印刷

関連記事

日経ビッグデータ関連記事