kotaの雑記帳

日々気になったことの忘備録として記していきます。



戦略的データサイエンス入門

 ビッグデータという言葉が示すように、データ解析により有用な情報を知り、ビジネスに生かすという、いわゆるデータサイエンスが熱い。
 この「戦略的データサイエンス入門」は、データサイエンス全体を俯瞰し、統合的な知識を与えてくれる。原著のタイトルがData Science for Business"であることからわかるように、”入門”書ではない。データ処理の個々の手法について数学的な解説をしていないため、”入門”と訳者はしたのかもしれない。
 学校で教師から教わるのと違い独習していると、ホットトピックをつまんで勉強するため、その学習領域全体のことが分からなくなる。しかし、全体が分かると、ある手法は何故そうなっているのか、どこまで答えを出せば、次のステップで役に立つのか、見渡すことができる。全体を見渡せれば、個別最適化ではなく全体最適化ができる。
 本書は、データサイエンス全体を俯瞰しているが、決して表面を浅く説明しているものではない。一つ一つの概念の本質に迫っているため、”入門”書と思って読むと挫折する。自信のある人限定で、読むのが良い。

メモ

 ビッグデータであれスモールデータであれデータを処理することはさほど難しくない。難しいのは、データ処理結果を使うことだ。データ処理の根底には、オーバーフィッティングの問題があるからだ。例えば、株価予測をすることを考えよう。株価予測を行う予測モデルを作ることは難しくない。株価データは豊富にあるため、予測モデルを複雑にすれば株価に完璧にフィットさせることができる。ただし、明日の株価予測はできない。過去の株価データにフィットさせ過ぎるためだ。つまり、明日の株価を予測するモデルを作るためには、明日の株価が必要になる。明日の株価が分からないため、作られた予測モデルは不完全だ。その不完全な予測モデルを用いて自分の金を賭けれるかは、難しい決断となる。こう考えると、データ分析の結果を使うことこそ難しいことが分かる(5章 オーバーフィッティング)。幸い、7章・8章でこの問題に対処する手がかりを本書は与えている。

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック