kotaの雑記帳

日々気になったことの忘備録として記していきます。



ビッグデータを簡単にまとめる

はじめに

 Buzz Wordと化して、もはや分け分からない用語となったビッグデータについてまじめに調べてみました。
 ビッグデータでなにかすごいことができると言われながら、何が出来るかいまいちよく分からないものです。

 『ビッグデータ活用は水面下に潜る? 「情報」から価値を見いだす「知識」が、再浮上の鍵』(クラウドWatch)からビッグデータ活用状況について抜粋します。

ひとときほど活用事例が表に出なくなっており、また、活用したけれども満足のいく結果を得られなかった、という失望の声も聞くようになっている。

ひところに比べてビッグデータ活用にかかわる話が鎮静化しているように見えるのは、ネットのログデータやセンサーデータを収集し、多数のデータ間の相関を単に分析するなど誰でも思いつくことを一通りやってみて、それだけでは企業活動にはさほど役立たない場合が多いことが分かり、先進企業では、データ活用をビジネスの改善や企業経営にどう生かすかより深く考える段階になっているのです。

 つまり、物販業において顧客の購買履歴から商品のお勧めをするとか、コンテンツビジネスにおいて視聴履歴からコンテンツのお勧めをするといった、成功事例をきっかけにビッグデータへの感心が高まったが、他に成功事例が無いということのようです。
 ビッグデータという言葉に飛びつくのではなく、そもそもビッグデータの本質は何か一度考えてみる必要がありそうです。

そもそもどういう技術分野なのか?

 ビッグデータと呼ばれるものは、大きく以下の技術領域が含まれています。

  • データ収集
  • データ蓄積
  • データ解析
  • アクションの策定
  • アクションの実行

 ITの研究者は、主に最初の二つ「データ収集」と「データ蓄積」に関して、データ量が莫大だから何の役に立つかはおいといて、ツールを作ろうとしているように見えます。センサーネットワークとか、Hadoopとかが典型例です。
 一方、データ解析においては、統計学が使われます。
真実を見抜く分析力  ビジネスエリートは知っているデータ活用の基礎知識:によれば、その方法と種類は3つに分けられる。

記述 いわゆる記述統計により、分析対象の特徴を記述する。例えば、季節毎の売上高の分布の形や平均値などを知る。
予測 過去のデータを使用して未来を予測する。変数AとBの相関を明らかにし、AからBを予測する。このとき、AとBの間の因果関係は明らかにしないときもある。例えば、夏になって気温が上がると、ビールの売り上げが上がる(原因が高い気温、結果がビールの売り上げ増)が、ビールの売り上げが増えたことを見て、気温が高いと推測する。
処方 最適化を目的とし、変数間の関係を明らかにし、例えば利益を最大化する価格を決める。

 このようなデータ解析は、ビジネスの世界では”ビジネスインテリジェンス”と呼ばれて以前から活用されています。

ビッグデータ解析は従来のデータ解析と何が違うか?

 ビッグデータという概念が開いた可能性は、精度の低いデータでもたくさん集まると精度が高まる、ということです。例えば、東日本大震災のときに、車の通行履歴から、通行できない道路を抽出した事例がありました。車がその道を通れなかったのか、それとも用事が済んで通らなかったのかは、ケースバイケースです。しかし、極めて多数の車が、道路のとある箇所を通過しなかったということから、その箇所は通行できないと推測することができます(蛇足ですが、道路が壊れているから車が通過しないという因果関係ですが、因果関係をはっきりさせないまま道路が壊れているという推測をしている点が面白いと思います。)

ビッグデータの今後

 ビジネスインテリジェンスといった分野で言われているように、(広義の)データ解析は、解決したい問題を明確にし、その問題を解くための仮説を立てることが最も難しい。(狭義の)データ解析作業は、仮説が成立するかを検証する手段といえます。
 一方、低精度のデータを多数集めると精度が高まる、という点がビッグデータの特徴だとすると、データ解析に使えるデータが広がったという点が、その貢献があるように思います。すると、(広義の)データ解析において最も難しい問題の明確化と仮説立案に対してビッグデータは貢献しないように思います。
 こう考えると、ビッグデータの未来は、その使い手の力量に委ねゆだねられているように思います。

真実を見抜く分析力  ビジネスエリートは知っているデータ活用の基礎知識

真実を見抜く分析力  ビジネスエリートは知っているデータ活用の基礎知識