ホーム > mixiニュース > IT・インターネット > IT総合 > 文系記者が「データサイエンティスト育成スクール」に通った結果

文系記者が「データサイエンティスト育成スクール」に通った結果

1

2019年08月20日 07:12  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

写真受講を機に「MacBook Air」を購入した
受講を機に「MacBook Air」を購入した

 企業が持つビッグデータを分析し、ビジネス課題の解決に役立てる「データサイエンティスト」の需要が高まっている。近年のAIブームもあり、データサイエンティストへのキャリアチェンジを考えている人も多いのではないだろうか。実際、データサイエンティストの採用、育成に関する記事は読者からの反響が大きい。



【その他の画像】



 しかし、データ分析やプログラミングをしたことがない未経験者が一からデータサイエンスを学ぶのはなかなかハードルが高い。どのレベルの知識や技術を学ぶかにもよるが、社会人が実務で役立つスキルを身に付けようと思うと、少なくとも「AIやデータを活用して何ができるのか」「自社のどのような課題をAIで解決できるのか」などを知る必要がある。



 記者は普段AIの取材をすることが多く機械学習やPythonを学んでみたいと思っていたが「何だか難しそう」と、なかなか一歩を踏み出せずにいた。そんなことを考えていた2018年10月ごろ、データサイエンティスト育成スクールを体験取材する機会を得た。今回体験したのは、東京・神田にあるデータミックスの育成講座だ。同社の講座は「未経験から6カ月間でデータサイエンティストを目指す」とうたっており、実際に卒業生の中にはデータサイエンティストに転職した人が複数人いる。



 本記事は、半年間に及ぶ体験をまとめたものだ。スクールに通うにはお金も時間も掛かる。データサイエンスを学びたい人全てがスクールに通うべきかといえば、それも違うだろう。独学ではない形でデータサイエンスを学びたいと思っている読者の参考になれば幸いだ。



●スクールでは何が学べる? 事前準備に必要なもの



 「編集記者からデータサイエンティストに転職できるかもしれない」――そんな下心もありつつ、記者は受講を決めた。期間は2018年12月〜19年7月。体験取材といいつつ他の受講生と同様、仕事の合間に勉強した。



 データミックスのカリキュラムは「ブートキャンプ」「ベーシック」「アドバンス」「インテグレーション」の4ステップで構成される。ブートキャンプでは統計学や機械学習の基礎、Python、Rによるプログラミングの基礎を学び、ベーシックではグループワークなどを通してより実践的な演習に取り組む。アドバンスで画像処理や自然言語処理といった専門的な技術を身に付けたら、その集大成としてインテグレーションで卒業プロジェクトに取り組む──という流れだ。



 この講座のゴールは「高度なデータ分析技術を用いてビジネス課題を解決できるようになること」だ。データを活用することで企業や業務を変えていこうとするビジネスパーソンを支援することが目的なので、社会経験のない学生は受講できない。



 全カリキュラムを受講する場合、半年間で授業料72万9000円(税込)が掛かる。決して安い金額ではないので、受講の判断は無料説明会に参加してから決めるという流れだ。カリキュラムはステップごとに受講可能なので、「まずは雰囲気を知るためにブートキャンプだけ参加してみたい」というやり方もできる。



 記者はブートキャンプからインテグレーションまでの全ステップを体験した。体験取材という名目なので授業料は免除されたが、後述するように入試対策講座や授業で使うためのMacBook Air、専門書の購入などで結局20万円弱は使っている。



 本講座を受講するには、Pythonと数学のレベルを測るための入学試験に合格する必要がある。記者の数学の知識は微分やベクトルで止まっており、プログラミングの経験も乏しいため、データミックスが用意した入試対策講座も受講した(こちらは自腹)。試験内容の詳細は明かせないが、高校数学レベルの知識があり、無料のオンライン教材などでPythonの基礎を一通り学んでいれば合格できるレベルなので、自信がある人は対策講座を受ける必要はない。試験は、対策講座を受ければほぼ間違いなく合格できるだろう。



 試験に無事合格した後は、授業で使うPCの準備だ。推奨されるノートPCのスペックは、メモリが4GB以上(できれば8GB)、ストレージがSSDで256GB以上、HDDで1TB以上。仕事で使うノートPCにPythonやRなどをインストールするわけにもいかないので、MacBook Airを購入することにした。プログラミングはJupyterNotebookやRStudioなどの環境で行う。受講生はMacbook Proを使う人が多かったがWindowsのPCを使う人もいた。データサイエンティストへのキャリアチェンジを考えている人は、Macbook Proを買うのが無難だろう。



 授業は対面形式で、1週間に1度、データミックスのオフィスで3時間行う。講義内容は動画撮影されているので、分からなかった箇所は後から動画で復習できる。授業は木曜の夜と土曜の午前、午後から選べ、記者は主に土曜の午後に通った。仕事の合間やプライベートの時間を使って予習、復習を行うので、今振り返るとなかなかハードな半年間だった。



●座学にハンズオン、グループワークも 授業の進め方は



 データミックスは、スクール事業とコンサルティング事業を手掛けており、実務経験が豊富な講師陣をそろえているのが特徴だ。普段、さまざまな企業のデータ分析業務を支援しているので、授業の中でも「(授業で使う)配布資料にはこう書いてあるが、実務ではこのポイントがうまくいかないことが多い」など実体験を基にポイントを話してくれる。



 1回の授業で、20人弱が教室に集まる。20〜40代が中心で男性が多く、普段はプロダクトマネジャーを担っているというベテラン社員の姿も見られた。受講生の職業はさまざまで、コンサルタントや企画・マーケティング担当者をはじめ、書籍の編集者や人事担当者など、初めてデータサイエンスを学ぶ人も多かったが、中にはスキル向上を目指す現役のデータサイエンティストもいた。



 データミックスでは「なぜ、こうした分析結果になるのか」「なぜこの手法を使うのか」などを技術に詳しくない相手にも説明できるようになることを重視している。そうした背景もあり、授業中に分からないことがあればいつでも自由に質問できる。しかし、受講生の知識レベルがばらばらなので完全な初心者だと手を挙げて質問しづらいかもしれない。



 授業では学習するトピックごとに資料(いわゆる教科書)が配布される。基本的には座学で知識を詰め込みながら、グループワークで演習に取り組んだり、実際に手を動かしながらプログラミングをしたりを繰り返す。最初の方は座学が多いので「独学だと何から始めていいか分からない」という人にはフィットするだろうし、独学でガンガン進められる人にとっては物足りなく感じるかもしれない。



 AIプロジェクトは、一般的に目的の設定→データ準備→モデル生成・評価→業務への組み込みと運用、という流れで進んでいく。データミックスで学べるのは、モデル生成・評価などの「分析」工程だ。線形回帰、ロジスティック回帰、サポートベクターマシン、決定木、回帰木、ランダムフォレスト、k-meansといったアルゴリズムや、クロスバリデーション(交差検証)、グリッドサーチといった手法は学べるが、要件定義のための論理的思考や、サービスにAIを実装するエンジニアリング力は一朝一夕では身に付かない。



 スクールでは「既に機械学習で解くべき問題に落とし込まれた課題」を解いていく。不動産の価格予測や企業における退職者の予測など、実際によく出てくるユースケースを解きながら「AIで解けそうな課題を自力で発見する力」も養っていくイメージだ。



 実際、授業では機械学習コンペティションのプラットフォーム「Kaggle」をはじめ、ビジネス現場でありそうなケーススタディに取り組む。独学でKaggleに挑んで挫折したという人も、講師に質問したり、受講生同士で相談したりすることでモチベーションを維持できる。



●結局のところ、自習は必要



 しかし、データサイエンスにまつわる専門知識を半年間で詰め込むので、結局のところ自習は欠かせない。週1回3時間の授業に加え、毎週出される宿題を提出、授業の予習と復習をし、分からないところは独自に調べ、気になることは深掘りする――となると、勉強時間の確保が難しい。



 記者の場合は、学んだことが普段の取材に生かされているなという実感もあり、勉強すること自体はそこまで苦ではなかった。例えば、データサイエンティストやAI開発者への取材で、これまではあまり深く踏み込めなかったアルゴリズムの内容を聞いたり、それぞれのデータサイエンティストがどのような業務をしているかをより具体的に想像したりできるようになった。専門性の高い内容なので日々学ぶべきことは多いが、「以前よりも想像力を働かせることができるようになった」と感じることが増えたように思う。



 しかし、平日の仕事が終わった後に勉強するのは大変で、MacでJupyterNotebookを開いたまま寝落ちすることも多かった。特にプログラミングは分からないことだらけだったので、疑問があればひたすらググり、先人たちが残した知恵をQiitaなどの技術者向情報サービスでチェックした。さらに理解を深めたければ専門書の出番だ。特に統計学の仮説検定は一度聞いただけでは理解できなかったので、統計学の入門本を何冊か購入した。



 また、記者の場合は初めてのMac、初めてのPythonとR、(ほぼ)初めての統計学だったので、ハードウェア、ソフトウェア、そして学習内容でそれぞれつまづく三重苦だった。道具を手になじませるには使い続けるしかないので、恥ずかしながらMacとJupyterNotebookのショートカットキー一覧を覚えるところから始めていった。実際に手を動かすことで気付くことも多かった。



●実際に手を動かすことで気付くこと



 どこに苦労するかは個人差があるだろうが、プログラミングが不慣れだったのでコードを書くのはかなり苦戦した。コードを書く→実行する→エラーが出る→エラーの説明文をコピペしてググる→コードを書き直す、という作業をひたすら繰り返した。



 Webブラウザの自動操作ライブラリ「Selenium」を使い、PythonでWebサイトの情報を収集するスクレイピングを実行した際には、ページ遷移がうまくいかず欲しい情報が取得できないエラーが頻発。1つのエラーを直すと別のエラーが発生し、そのエラーを直すと別の行がエラーになる――という、エンジニアリングの醍醐味(?)も十分に味わった。突破口が見えず心がポッキリ折れそうになったときも、講師に質問できるのは安心感につながる。



 また、AI開発者に取材したときに良く話題に上がる「データの前処理が大変だ」という話も、少しだが身をもって体感できた。演習用のデータなので、欠損値や外れ値をチェックしたり、数値データが大きすぎる場合にデータを標準化したりする程度だが、「欠損をどう処理するか」を考えるだけでもいくつかの方法がある。データを集計、可視化したときに、そのデータの傾向や特徴を的確に把握することは、その後の分析をスムーズに進めるためにも重要だと感じたが、これは一朝一夕で身に付くスキルではないだろう。



 データサイエンスにまつわる一通りの内容を学習することで、自分は何が得意で何が苦手なのかが何となく分かってくる。データサイエンティストにキャリアチェンジしたい人は、事前に自身の適正を把握しておいて損はないはずだ。



●スクールに向いている人と、通うメリット



 卒業プロジェクトに取り組み、講師による口頭試問を終えると、晴れて卒業となる。半年間は長いようで、あっという間だった。



 とあるデータミックス卒業生は、「(スクールに通うのは)ダイエットに例えると、ライザップを選ぶようなもの」「やる気と時間のある人は得るものが多い」と言っていた。目的が明確で、集中的に専門的な知識を得たいと思っている人は、投資した分のリターンを得られるといっていい。



 例えば、「最近はAIの依頼も増えてきたので、プロジェクトマネジャーとしてプロジェクトの全体像を把握しておきたい」のなら、ブートキャンプやベーシックステップだけ受ければいいだろうし、「データサイエンティストとしてのキャリアを歩みたい」のなら、インテグレーションまで進んで、転職支援を受ければいい。重要なのは、自分の目的とスクールが提供する内容が合致しているかどうかを説明会を通して事前に確認することだ。



 そういう意味では、記者の当初の目的(下心)である転職は果たしていないものの、スクールで得た知識は普段の取材で非常に役立っている。今後は、データ分析を記事作成やメディア運営などにも生かしていきたい。



 さまざまな領域でAI活用の裾野を広げていくには、より多くの人がデータ分析や機械学習などの基本的な知識を身に付ける必要がある。例えば人事担当者がデータ分析を学べば、精度の高い退職者予測AIを作成できる可能性があるし、そうした動きが業種、職種を超えて広がっていくことが求められているだろう。個人のキャリアとしても、データを見る目やデータを扱う力を養うことはプラスに働くはずだ。



 データサイエンスはよく料理に例えられる。データサイエンティストが料理人で、データが食材、与えられたインフラ環境が調理場だ。スクールで教えるのは、料理人としての心構えと食材の調理方法、調理道具の種類と使い方、そして調理場での振る舞い方だ。短時間で調理道具が増えていくので、どの道具をいつ使うのかを見極めたり、うまく道具を使ったりするには、優秀な料理人を手本にしながらたくさん料理を作るしかない。



 たとえ自分でうまく作れなくても、料理名やレシピを知っていれば、他の料理人にそれを伝えて作ってもらえばいい。今は、他の料理人においしい料理を作るように指示を出したり、全体を取りまとめたりする料理長(プロジェクトマネジャー)の需要も非常に高まっている。



●「データサイエンティストブーム」は続くのか



 AIバブルともいえる日本では、データサイエンティストという職業が引き続き注目されている。しかし、「果たしてデータサイエンティストブームやAIブームはいつまで続くのだろうか」と思う人もいるだろう。データミックスの授業でも、実際に受講生たちから「データサイエンティストの需要はいつまであるのか」「40代からデータサイエンティストに転職するのは現実的なのか」といったキャリアに関する質問が多く飛び交った。



 そもそも、データに基づいてビジネスの意思決定をする文化が根付いている日本企業がどれだけあるだろうか。「データ活用の民主化」などといわれることもあるが、まずはデータ分析の文化を多くの企業に浸透させねば、職業としてのデータサイエンティストは成り立たないだろう。



 授業では、機械学習のモデリングを自動化する技術である「AutoML」(Automated Machine Learning)などの登場で「近い将来データサイエンティストが不要になるのでは」という声も上がった。



 しかし、実際にデータサイエンティストとして活動する講師は、自動化ツールの台頭にそこまで悲観的ではないようだった。これまで述べてきたように、データサイエンティストが行う業務は幅広い。モデルの特徴量作成やパラメータ調整などを自動化できれば他の作業に時間を割けるし、多くの人がデータ分析に触れる可能性が広がると考えれば、こうした動きはもっと前向きに捉えても良さそうだ。



 「40代からデータサイエンティストに転職するのはどうか」という質問に対しては、「いちからプログラミングを学んで若い人と競争するよりも、プログラムを書けるパートナーを探し、これまでのビジネス経験を生かすのがいいのではないか」という回答があった。個人のキャリアに正解はないが、自分の持ち味をどう生かすかを考える上での参考になる意見だ。



 また印象的だったのは、授業で出てくる数式の内容が理解できないときに「分からない数式は、Excelで書いてみるといい」と勧められたことだ。「(回帰モデルの)リッジ回帰とラッソ回帰の違いや、論文に出てくる数式の意味がよく分からない」という質問に対し、講師は「数式を1つ1つ分解しながら、Excelシートにxやyの値をアテで入れてみて、どういう計算が行われているのかを順番に実行してみる。Pythonでは1行しかないコードでも、Excelで一から書ければ本当の意味で理解したことになる」と回答した。



 Pythonで書いたコードの中身をどこまで理解すべきかは自分が目指すキャリアによっても変わってくると思うが、「難しい数式が出てきたら、まずExcelで再現してみる」という発想は全くなかったので、このアプローチも参考になった。



 このように、スクールでは多くの学びがあった。ビジネス課題を解決できるようになることが目的なので、AIはあくまで手段だ。実際に、最後の卒業プロジェクトは必ずしもPythonやRを使う必要はなく、Excelで解決できるならそれでも問題ない。新しい手法を覚えると、高度な手法を使うことそれ自体や、モデルの精度を上げることに気を取られがちだが、そこは手段と目的がひっくり返らないように気を付けたい。



 また、「スクールはデータ分析に価値があると思っている人たちが集まっている」という事実を忘れてはいけない。授業の中では「そもそもデータ分析をすることに何の意味があるのか」を問われたり、「データ分析をする意味がない問題を分析する」こともない。しかし、実務ではそうした壁にぶち当たることも多いはずだ。



 そして授業の最終日、講師が卒業生に贈った言葉は「データサイエンスを楽しもう」だった。昨今、政府や民間企業がAI人材の育成に取り組んでいるが、データサイエンスの楽しさを伝えられる人はどれだけいるのだろうか。


このニュースに関するつぶやき

  • 私も通ってみたくなりました。
    • イイネ!1
    • コメント 3件

つぶやき一覧へ(1件)

あなたにおすすめ

ランキングIT・インターネット

前日のランキングへ

ニュース設定