- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/25
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (110件) を見る
『統計学が最強の学問である』 / 西内啓
★ × 87
内容(「BOOK」データベースより)
あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その本当の魅力とパワフルさを知っているだろうか。本書では、最新の事例と研究結果をもとに、今までにない切り口から統計学の世界を案内する。
業務上、比較的大きなデータを入力として開発を行うことがよくありますが、こんなクセを持つ入力にはこういった解析を、というバリエーションが無いものだから、結局平均と分散とminmaxを出して「改善しました」とか言ってます。
しかも上司もその世界に精通してないので、おとがめなく通ってしまっている。
ここを解決するのが統計学で、本著を手に取ったのも現状打破の糸口を掴みたいが理由でした。(なので以下はレビューというより備忘録の意味合いが強いです)
第二章では、全数を探索することと、ある部分のみサンプリングして探索することの費用対効果について書いています。
サンプリング調査でどうしても気にしてしまうのが、「問題あるデータを見逃していたらどうしよう」という点ですが、僅か数%の改善を見つけるために、途方もないデータ量を解析することのバカバカしさがここで強調されています。
これは自戒だな…留意すべきは膨大なデータ解析のハウツーじゃなくて、まずは目の前のデータを以下に平等に切り刻むかってとこですね。
第三章の核は「誤差」、具体的には「カイ二乗検定」という、理想と現実の結果のズレが誤差が果たして改善と言えるのか、それとも単なる誤差なのかを見極める手法について書かれています。
最終的に何かしらの改善結果、それが例え1%だとしても、私はそれを「上手くいった!」と舞い上がり、プロセスを疑ったり、結果自体を疑うことから思考停止してしまうのはよくあります。
結局扱っているのはデータなので、見る人が見ればすぐにも分かりそうな数値のマジックを、私も含め統計リテラシーの無い人が騙されて損をしている、という所が非常に悲しい。笑 ここも自戒!
第4章は「ランダム」の素晴らしさについて。
話は逸れますが、最近の機械学習の世界でも、データの扱いを一部ランダム化することで、結果が改善されるという報告が度々なされているようです。
けどそれはランダムだから、理論的に誰も説明できない。
ただ「やってみたら上手くいきました」という結果論を語るしかない。
そんな、強力だけど不安定な手法だから、理論家は嫌いがちな発想ではあるけれど、速度と説得力を求めるビジネスの上では無視できない分野だなと思いました。
以降、ロジスティック回帰、バスケット解析、N-Gram、ベイズ推定など深い内容が続くので、このあたりは勉強不足な私にとっては学ぶべきことだらけですが、普通に統計に興味あり、くらいの方にとってはあまり有益でないかもしれません。
ただ、はじめ2章くらいは一般論でかなり面白いので、読んで損はないです。