ビッグデータと仮説思考

　ICT分野での流行の一つはビッグデータである。正確には、ビッグデータ処理が流行りである。たくさんのデータを集めて相関をみつけることで、なんかの役に立つに違いないという話である。
　昔はデータマイニングという言葉があった。データの隠された相関をみつけようという試みである。スーパーでさんまの横に大根を置くと良く売れるとか、この本を買った人に合の本を勧めると良く売れるといった話である。
　ビッグデータ処理の研究は、処理用に集められたものでないデータも、なんとかして処理できるデータにしてしまおうという技術を開発しようとしている。例えば、twitterのつぶやきなんて、方言やスラングがいっぱいでそのままではデータ処理できないのだけど、コンテキスト依存のオントロジーを使ってガリガリ処理しようとしている。
　ところが、データマイニングが流行ったときにみんなが試行錯誤した結果、データの中で見つかる相関は、わざわざデータマイニング処理しなくてもわかることばかりだった。さんまの横に大根を置けば一緒に買うことなんて、わざわざ計算機でデータを洗わなくても分かっていることだ。
　それなのに、ビッグデータ処理の研究をするのって意味がないと思わないか？　データを集めたところでデータマイニングで大した結果が出ないのだから。計算機からデータ間の関連に関する”気付き”をもらうというのは、今の所期待しない方が良いみたいだ。
　一方で、訓練された人間は、説くべき問題の性質から正解を仮説として導くことができる。仮説が正しいかどうかは、データの裏付けをとらなければ分からない。つまり、仮設の検証にはデータが必要だ。ビッグデータ処理とは、人間による仮説を検証するためにつかわれるんじゃないかと、思っている。ただし、検証できる仮説は過去のことだけで、未来への仮説を検証することはできない。たくさんのデータを集めても明日の株価は予想できない、当たり前のことだ。