漫画家イエナガの複雑社会を超定義 (漫画家イエナガの複雑社会を超定義)
データサイエンティストという職業が激アツ。アメリカで毎年発表されている職業の魅力度ランキングでも上位にランクインしている。データを分析し、新しい価値を創造する職業。日本では2030年までにこの職業に関して55万人の人材が不足すると見込まれている。そこで政府は教育改革を進めて、近年、データサイエンス学部を新設する大学が続々登場している。
大学院でAIを学んだグレッグ・リンデンは卒業後の1997年、シアトルの小さなオンライン書店だったアマゾンに入社した。当時は本しか扱っておらず、欲しいものをピンポイントで検索して購入するという仕組みだった。リンデンは「偶然、興味のある本に出会える」というリアル店舗のワクワク感をオンラインショップで実現できないかと考えた。リンデンは「購買傾向が似ているユーザーを抽出し、片方がまだ買っていない本をオススメする」というレコメンデーションシステムを作ることにしたが、当時顧客は既に数百万人いたためユーザーのデータを整理するのは難しかった。そこで、ユーザーの類似性ではなく商品の類似性に着目し、「アイテムの類似性だけを計算しオススメする」という手法をとった。レコメンデーションシステムは成功し、売り上げは急増、その35%をレコメンデーションシステムが牽引するまでになった。リンデンは様々な会社からヘッドハンティングされ、データサイエンティストの先駆け的存在となった。そして2007年、スマートフォンが登場した。それまでパソコン使用時のアクセス履歴やアンケート情報などに限られていた個人のデータ収集が、位置情報・睡眠情報・アクセス履歴など、24時間365日可能となった。さらにSNSが利用者が増加し、ネット上にはテキスト・画像など日々大量のデータが積み上がるようになった。こうした大量のデータはビッグデータと呼ばれ、企業はこれを分析することでよりパーソナライズ化したマーケティングが可能になった。データサイエンティストは職業の魅力度ランキングで常に上位に入るようになった。
データサイエンティストの仕事は、仮説構築、データ加工、データ分析、評価適応の4段階に分けられる。「クレジットカードの不正利用を減らす」ことを目的としたデータサイエンティストの仕事で表すと、「仮説構築」はデータからわかりそうな不正利用のケースをできるだけ多く考えること。「データ加工」は構築した仮説をもとに分析に必要なデータを集め、不要なものを外したり欠損したデータを埋めたりして整えること。「データ分析」は目的に応じて最適な手法を選択し、AIを使ってユーザーの購買パターンをいくつかのグループに分けることなど。「評価適応」は、ユーザーの使用感を損ねずに不正利用を減らす判定ルールを考えることや、過去の不正利用の何%を防げるか測定し、現実的な適応を決めていくことなど。このようにデータサイエンティストには統計学やAIに関する知識、情報処理能力など多くのスキルが求められる。日本でもデータサイエンティストの求人数は急増している。しかし日本で働くデータサイエンティストの満足度は低い。その理由としては、分析するデータがそろっていない、分析結果を出しても現場が活用してくれないなど、雇用側とのミスマッチなどがある。日本のデータリテラシーは世界の中でも低く、データを理解し役立てることができる人材が圧倒的に少ない。その原因には理系人材の不足などがある。そこで日本政府は、小中学校でプログラミング教育を必修にするなど、その育成に力を注いでいる。企業も社員のデータサイエンス教育を急ピッチで進めており、トヨタではデータサイエンスに強い滋賀大学と提携し、社員に統計学や機械学習を学ばせている。一方で、データサイエンティストの倫理的な問題も指摘されている。現在ではツールの高度化が進み、分析が自動化しつつあるため、データサイエンティストはより高度なことを求められるようになり、その専門性が高まっていくと思われる。今後、あらゆる意思決定がデータによってくだされる時代が来るのかもしれない。データが恣意的に使われていないか、導き出された答えに疑問はないか、一人ひとりがデータについてもっと知る必要がありそう。