データサイエンティストにはなれなかった

システム屋さんの中でひっそりデータ活用について考えていくブログ

分析のレベル

5日は長いなーと思っていたGWも残すところあと1日になりました。
このGW今のところ進捗ゼロなので
ブログぐらい更新するかという気持ちで書いています。

最近「データサイエンティストブーム」が下火になってきた関係か、
ポジショントークっぽいツイートやブログを目にすることが増えてきたなぁと感じています。

例えば「クロス集計だけでは気付けないことがある」とか
「時系列データを眺めてるだけではうんぬんかんぬん」とかですね。
どれも分析者の視点からは正しいことだと思うのですが、
ビジネス全体の動きにおいて常にこれらの指摘が正しいかと言うと
そうではないケースも多々あるのではないかと思っています。

一般的に「正しい分析」を行うためには
リテラシーの高い分析者に業務を依頼し、依頼された分析者は、
専門外の方からすると「どうしてそんな面倒なことするの?」と言われる様な
高度で複雑な手法を駆使してリアルデータに立ち向かうことが必要になったりします。

その結果「正しい分析」が出来たとして、
現場担当者が表計算ソフトで作ったクロス集計表や時系列グラフなどの
「現場の分析」と比べてどうなのかが、ポイントになるのではないでしょうか。

一般的には、「正しい分析」の方が精度や信頼性に関しては高い一方で、
現場からすると外部に流出するコストが発生したり、
高度で複雑な手法を駆使した分析は作業自体に時間がかかるのはもちろん、
結果に対して上司や関係者などから理解を得ることに手間取ったりして、
次のアクションに繋げにくかったりします。

次のアクションの決定に莫大な費用がかかる場合や
ビジネスの将来性に大きく影響する様な場面では
いくらか時間や費用をかけてでも「正しい分析」を実施すべきでしょう。
一方で、ある程度現場の裁量で動けて、
短期間でPDCAを回すことが是とされている様な状況ならば
「現場の分析」の方が適していると私は考えます。

両極端な例を挙げましたが、
実際は現場に求められる分析のレベルはもっと曖昧だと思います。

単なる「集計・可視化」で十分なのか、
数式1本で表現できる様な「モデル化」で十分なのか、
状態空間モデルや構造方程式モデルなどのもっと「複雑で精緻なモデル化」が必要なのか、
(細かい話をすれば変数選択や正則化、モデルの検証などをどこまでやるかなんて話もある)
これを現場の方が判断するのは非常に難しいことだと思います。

この様な状況に対し、常に「複雑で精緻なモデル化」を押し付けるのではなくて、
ちょうど良いレベルを探り当ててそちらに導くというのが
分析者に求められる役割だと思います。骨が折れることは承知ですが、、

長くなってしまった。。