データが創る未来

ビッグデータ技術は「ビッグデータサイエンス」をどう変えるのか

新連載「イノベーションの予兆」第1回

2014.08.25白ヤギコーポレーションCEO 柴田暁

ビッグデータに関連する新しい技術やサービスの研究開発がますます盛んになっている。これらは企業のデータ活用の進め方を大きく変える可能性がある。新連載「イノベーションの予兆」では、こうしたポテンシャルを秘めた先端的な技術やサービスの動向を紹介していく。著者は本誌サイトでこれまで「世界を変える論文」を連載した白ヤギコーポレーションの柴田暁CEO(最高経営責任者)だ。

 これに対して、エンタープライズにおけるデータ処理技術のベースにはデータベース管理システムがある。プログラムの実行環境にデータを読み込むGRIDの手法とは対照的に、データを管理するシステムにプログラムが送られて実行される。先ほどの例で言うと、川の上に家を建てて水を使うような仕組みである。元来データベースを使った処理は科学データの解析に比べて非常にシンプルなプログラムを使うが、処理結果が直ちに返される必要のあるオンラインシステムでの利用を前提に作られており、対話性が非常に高い。

サイエンス分野とエンタープライズ分野のビッグデータの処理技術の違い

 インターネットが巨大化してきた2000年代半ばくらいから、企業が扱うデータ量は、高エネルギー物理学が作り出すデータ量よりもはるかに速いペースで増加してきた。例えば、米グーグルが保有するデータは既にペタバイトを超えエクサバイトの単位になっている。それに伴い、そのデータを効率的に処理するためのデータベース技術が大きく進歩した。

 「Apache Hadoop」や「Amazon Redshift」はその最たる例で、非常に複雑な分析をデータベース上で並列処理するために、データベースを細かく切り分けられた仮想環境に分散させ、解析プログラムもまた非常に小さな単位に分解できるよう設計することで、実行速度が飛躍的に向上した。さらに、データベースに直接接続する可視化技術(例えばTableau)の進歩により、以前は考えられなかったほどの大量のデータがリアルタイムで分析・可視化できる。

科学の成果がますます活発に応用される

 データ処理技術の発展の最先端は長く科学の領域にあったが、現在の最先端はエンタープライズ側に取って代わられたと考えられる。科学分野で先端データ処理技術の導入が遅れているのは近年の変化の早さに対応が追いついていないという側面が大きい。例えばLHCで使われるデータ処理技術が検討されていたのは2000年以前からで、分散型データベース技術がここまでの進歩を遂げることは予想を大きく上回っていたと考えられる。また科学的分析に必要な解析プログラムは概して複雑で、新システムでの実行を可能にするためには大規模な書き換えが必要になる。

 一方で大量のデータの解析がリアルタイムで行えるようになると大きなパラダイムシフトが起こる。新しい技術の活用に熱心なスタートアップ企業の世界などでは既に当たり前になっているが、仮説に基づいて、実験を行ない、データを収集し、検証するサイクルをどれだけ速く回すことができるのかが、今後あらゆるビジネスでの勝負の分かれ目になると認識されてきている。短いサイクルで分析することで、思考をどんどん進化させ、新しい考え方を導き出すことができるようになるからだ。

 1つの分析に1週間かかるのか、15分かかるのか、それによって得られる進歩は大きく異なる。既に大量のデータを扱う多くの科学分野で今後エンタープライズのビッグデータ技術が使われるようになれば、新しい発見への時間が大きく縮まるだけでなく、その過程で科学者が培った知見がエンタープライズの分野でますます活発に応用されるようになるだろう。

柴田 暁(しばた あきら)
ロンドン大学クイーンマリー校で実験素粒子物理学博士号を取得。ニューヨーク大学研究員、ボストン・コンサルティング・グループでの戦略コンサルティングを経て、現在、情報サービス「カメリオ」の運営やビッグデータコンサルティングを手掛ける白ヤギコーポレーションにてCEOを務める

印刷

日経ビッグデータの最新号

3月号特集

オンリーワンデータで成長戦略を描く

現場に出向けば、価値あるデータを創出できる

年間購読のご案内

申し込む

お問い合わせ

日経ビッグデータのサイトへ

本サイトは更新を終了しました

 「日経ビッグデータ」は2018年4月2日、「日経クロストレンド」に名称を変更しました。データ活用やAI関連の最新記事は日経クロストレンドでお読みください。

 本サイトは更新を終了し、19年3月31日に閉鎖する予定です。長い間のご利用、ありがとうございました。