データ分析初心者は“童心に帰る”べき── 現役データサイエンティストが説く、失敗しないための心構え

11

2022年10月07日 08:22  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

データミックスの代表取締役である堅田洋資さん

 コロナ禍の事業継続の姿勢から一転し、新規事業へ投資する企業が増えている。その中でも関心を集めているのがデータ活用だ。これまでの業務を通して蓄積してきたデータを分析し、業務効率や生産性の向上を狙う企業は多い。一方、ノウハウや人材不足により、思うような成果を出せない企業も存在する。



【その他の画像】



 データ分析初心者が陥りがちな失敗の原因とはなにか。データサイエンス人材の育成スクールを運営するデータミックス(東京都千代田区)の代表取締役である堅田洋資さんは「“データを見れば、データが何か答えを教えてくれる”と誤解する人が多い」と指摘する。



 続けて「データ分析を志す人は細かなテクニックを書籍などで学ぶ前に、童心を思い出すべき」と話す。自身も現役のデータサイエンティストでもある堅田さんに、データ分析初心者が持つべき心構えを聞いた。



●データとは“無口な友達”



 堅田さんいわく、データミックスが運営するスクールの受講生の中でも、データや分析結果を見るだけで答えを教えてくれると期待する人は多いという。「この解釈が大きな間違いで、分析結果はあくまでただの事実。ここから人間が答えを読み取らなくてはいけない」



 例えるなら、データとは“無口な友達”だという。さまざまな答えを知っているし、新しいことも教えてくれる。しかし、決してデータの方から話しかけることはなく、人間側から話しかけなければいけない。だからこそデータ分析を志す人には、自分が解決したい課題を言語化する能力が求められる。



 「世間では分析のテクニックだけにフォーカスしがち。確かにそれも重要だが、テクニックが必要になるのはデータに話しかけるフェーズに入ってから。だからまずは言語化能力を持つべき。データ分析に失敗する人はここが弱い人が多い」と堅田さん。



 では言語化能力を鍛えるためにはどうしたらいいか。堅田さんは、子どもの頃を思い出して童心に帰るべきと指摘する。「無邪気な心で『あれは何?』と両親に聞いていたように自分のビジネス上で何が起きているかを知ろうとし、それを言葉に変える。自分が知りたいことを言語化し、表に出すことがデータ分析の第一歩になる」



●その意思決定は本当に“データドリブン”か?



 データ分析で定める目標として、データドリブンな意思決定を目指す例が挙げられる。ただ、この“データドリブンであること”にもわなが潜んでいるという。例えば、ある企業が人件費を下げたいと考えているとする。人件費を下げるために何をするべきか、データを分析していく中で、社員を減らせば人件費が下がると判明したため、社員を減らすことにした。



 この例も、データドリブンな意思決定をしたといえるが、その結果としてどのような現象が発生するだろうか。社員が減ったため1人当たりの仕事量が増える。結果として生産性が下がることになり、また社員を増やすことにした……極端な例だが、このような事態も発生し得る。



 つまり、データドリブンな意思決定をしたとしても、それが本当に正しいといえるのかというその疑念が付きまとう。このような問題が発生する原因について堅田さんは「1つの問題だけしか注視していないと起こり得る」とし、「データ分析の際はもっと欲張りに“あれもこれも知りたい”と考えるべき」と指摘する。



 「この例なら『社員を減らしたら生産性がどのくらい変化するのか』や『この仕事にはどのくらいの人員が必要なのか』『あの仕事にかかる時間はどのくらいか』など、なるべく多くの“仮説”を設定し、それをつなげていくことが大切」(堅田さん)



 人件費を減らしたいから人を減らす、のように1つの仮説の答えを出しただけで満足せず、複数の仮説の答えを導いていく。そうすることでデータを読み取る思考はブラッシュアップされていくという。この仮説を立て試行錯誤する過程は、主観が入るため絵や文章を書くことに近く、堅田さんは「アーティスティックな作業」としている。



 その上で、仮説にこだわりすぎることにも警鐘を鳴らす。主観が入るからこそ、それは“思い込み”にも変わる可能性があるため、データが持つファクトを捻じ曲げてしまうリスクがある。データによるファクトと仮説によるアート、この2つの要素を混同しないように使い分けることが重要になる。



●データ分析にかけるべき時間は?



 新たにデータ分析を始める際、どのくらいの時間をかけて分析を行うべきなのだろうか。堅田さんはこの問いかけに対し、データ分析はただのコストであるとし「かけるべき時間は短ければ短いほどいい」と話す。



 データ分析の作業は主に2つに切り分けられるという。1つは、データから何が読み解けるかと考えること。もう1つは実際に手を動かし分析を行う作業だ。このうち、前者の考える作業に時間をかけるほど、アウトプットの質が良くなるという。そのため「手を動かす時間を短くできるかどうかが、データ分析の質を決める」と堅田さん。



 そこで重要になるのが、分析前のデータを前処理するフェーズだ。業務で使うデータは、必ずしも分析のために集められたデータではない場合もあるため、前処理はとても重要な作業になるという。例えばExcelのデータを分析に使う場合は前処理作業として、記述が抜け落ちている部分を埋める「欠損値の処理」がある。



 この際に手打ちで作業するのではなく、ショートカットキーやIF関数、VLOOKUP関数などのテクニックを駆使できるかで作業効率は変わっていく。堅田さんは「これらのテクニックが使えない人は結構いる」とし、「少ない量のデータならば手打ちでもどうにかなるかもしれないが、数千、数万となるとどうにもならない」と説明。データ分析を志す人ならば、ぜひ覚えてほしいと強く念を押す。



 続けて現役のデータサイエンティストほど、前処理をしっかりできる人は少ないとも指摘。スクールの卒業生などにExcelデータを渡し、特定のキーワードが入っている行数を尋ねてその正答率を集計したところ、そのスコアはすごく低くなったという。この原因には挙げられるのは、データ分析に慣れたことによる慢心だ。



 「自分のやった処理が正しいかを検証できるか。そのための“検算方法”を編み出せる人はすごくいい分析者で、そういう人ほどデータをしっかりと眺めている傾向にある。料理で言うならば味見をきちんとしているということ。前処理はまさしく味見に該当する部分であり、それを怠ってはいけない」(堅田さん)



●分析に使うツールはExcelで十分? それともBIツール? AI?



 データミックスは9月、Excelでのデータ活用スキルを測る検定試験「データ分析実務スキル検定 シチズン・データサイエンティスト級」(CBAS Citizen級)の実施を発表している。分析の非専門家である現場のビジネスパーソンを対象にした同試験の実施背景について聞くと、堅田さんは「仮説さえよければ、実はExcelでのデータ分析は結構できる」と話す。



 堅田さんは「Excelでも簡単な最適化問題や重回帰分析までなら行える。データ分析にExcelを使うことのメリットは何よりも、誰もが持っているソフトであり、分析を始めやすい点にある」と説明する。



 「先ほどの話にもあるように、データ分析というのは結局は仮説の出し合いが重要になる。どれだけ高機能なツールを使おうとも、これができなければ意味がない。そのためデータ分析を始める取っ掛かりとして、Excelはおすすめできる」(堅田さん)



 Excelが向いているデータ分析事例にはアドホックなもの、つまり継続的な利用よりも一時的な状態を知るための手段に有効的としている。例えば、「前月の退職率」や「今の工場ラインの不良品率」など現状分析する場合だ。データ量が数千から数万のものであれば、Excelで十分な分析ができるという。



 一方、「1年後の転職率」など先の予測については、Pythonを使った分析やBIツールなどの専門ソフトが向くという。これらを使うメリットは他に、組織全体に共有しやすいことにある。「Excelでできるのはあくまで分析結果の共有まで。社内の人たちにデータを入れてもらってAPIとして出力などはできないためExcelで社内共有はやりにくいと思う」と堅田さん。



 「どんな仮説を設定するか、分析に適切なツールは変わってくる。またその結果をレポートにしたいのか、ダッシュボード化するのか、AIで自動化するのかなど、どのような用途で使うのも重要になる。いずれにしろ、まず自分がどんな課題を解決したいのか、言語化するところからデータ分析を始めてみては」


このニュースに関するつぶやき

  • 義務教育レベルの学力があれば、日本において新コロなんて最初から最後まで「質の悪い風邪」レベルである事は分ると思うんだけどな〜。簡単に騙されすぎだよ。日本人。
    • イイネ!8
    • コメント 0件

つぶやき一覧へ(6件)

ランキングIT・インターネット

前日のランキングへ

ニュース設定