日本數據科學產業的過去、現在與未來

在2012 年,被哈佛商業評論譽為「二十一世紀最性感的工作」[1] 後,從此Data Scientist (中譯:數據科學家)一詞一砲而紅。Data science、AI、Big data 成為流行語,在某段時期中,好像不使用這幾個關鍵字就跟不上潮流。

筆者在2014年進入數據相關產業擔任分析師,2015年赴日進入 Machine Learning Lab, 畢業後以 data scientist 的身份工作至今。以一位「還算搭得上浪潮」的見證者,在本篇文章中,將回顧這幾年來 Data Science 業界的改變,以及人力市場上的變化。最後提出身為一位Data Scientist,未來的可能發展方向。

由於筆者長期生活在日本,日本的產業狀況又與其他國家時程有異(如:軟體產業通常慢美國數年的時間),在業界・人力發展方面,為求精確以在【日本地區】的觀察為主。

 

(1)2017以前的數據科學家就業市場:發展摸索時期、缺乏整合性工具

 

在DS發展前期,日本的人力市場對 junior data scientist 很歡迎,能招到有相關知識背景已經不容易、更遑論有業界經驗的人才。大部分軟體業界以外的企業,不清楚 AI 能如何為企業服務,進而持續地創造價值。由於企業內部缺乏 role model 以及能推動改變的資深人員,data scientist的 職缺多以網路公司或是引進科技技術相對較快的外資公司為主。

除了很早以前就開始有 data scientist 職缺的公司,大部分的公司在這方面都尚在摸索階段。因此 data scientist 在這階段,也有很大的機會能夠在公司內發展初期模型,從頭開始建構系統。另外,在這時期,由於市場上尚缺乏整合 data pipeline(中譯:數據工作流)的工具,data scientist 在建立模型時常常需要同時切換多種運算工具,在建模之後往往需要付出許多優化的時間成本。在內部數據呈現方面,也缺乏能夠對接後端程式碼,以及呈現給前端商務人員(公司內部的企劃、產品經理)的模組化工具。想當年(?)筆者就曾使用 Flask 自己寫了前後端給公司的人使用。

 

(2)2018年以後的數據科學家就業市場:更廣泛的運用及發展,整合性工具

 

Data Scientist 發展幾年後,市場上愈來愈多偏資深的人員出現在人力市場。現在在日本的人力市場上,有更多傳統企業如日系金融業、零售業、製造業、製藥業、物流業等等釋出招募 Data Scientist 的職缺。這類不是軟體相關產業的公司,因為非網路相關業界而缺乏資深軟體專才帶領,往往偏好招募中途、有經驗的即戰力人材進入公司。

由於在市場上,有 2–3 年以上相關經驗,又有一定日文能力的DS仍然偏少,除了非常要求產業知識的產業外(例如硬體公司發展機器人等等,偏好有機械背景人才)大部分的公司對業界的經驗不會太過要求,很多時候進去再學習相關產業知識即可。

在這段期間進入市場的 data scientist, 有更大的機率是進入已營運數年、或是由管理顧問公司協助前期建置已有基礎架構的數據科學團隊。比起從0重新建立模型及系統,改善・運維現有模型、在已知的市場中透過數據找出亮點反而成為了工作內容的重心。

現在,許多整合data pipeline、對接前後端可視化的工具(databricks, datarobot, dataiku等) 已經在市面上普遍化。這些工具將 model tuning、data visualization 等流程自動化,讓企業內的 data scientist 有機會免於掉入無限調參寫碼的泥淖。此外,處理數據的工具( Alteryx , Tableu 等)也更廣泛出現於一般公司中,供無相關背景經驗的商務人員使用。

除了企業內部自己的 Data scientist 自製機器學習系統外,以機器學習為基底的商業套件軟體也相較前幾年趨於成熟。兩年前去了辦在東京台場的 AI EXPO,小至新創大至系統廠,都已經做出了許多能夠提供客戶導入的機器學習模組。除 IBM 從早期就有發展外,日系大廠如NEC、 日立、NTT、富士通、KDDI 都製作出不少提供導入的系統。普通如聊天機器人、客服分析系統、店面攝影機客戶分析、專精如法律判決書整理系統、水質品質預測等等都在銷售範圍。

 

2018年AI EXPO展場樣貌 ( 圖片來源:https://www.ai-expo.jp/ )

 

(3)數位轉型成為趨勢

 

以近幾年而言,整體商業市場的競爭愈發激烈,各產業的數位轉型(Digital Transformation,簡稱DX)已成為不可逆的趨勢。即使在部分傳統產業中,以演算法創造價值(降低成本 和/或 提升營收)亦成為一間公司在領域中保有領先地位的必要元素之一。

2020年的疫情,對大部分的業界都有著不小的負面影響,各業界領導者對於「讓公司存活下來」也因此有了更深刻的危機意識,深刻體認到企業轉型的急迫性,疫情因此反而更加速了各式業界中大企業的數位轉型的進程。

 

(4)Data Scientist 泡沫破了嗎?

 

在2020年疫情初期,美國面臨大裁員之際,海外中國人論壇「一畝三分地」出現了一篇非常具有話題性的文章 针对于最近大规模的ds/dalayoff聊聊ds的前景 引發了不少人討論。

文中發文者提到在疫情初期,相較於軟體工程師,就業市場上的數據科學家/分析師被裁員了不少。討論串中提到了很多就業市場上 data scientist 這個職位的特徵:對公司是奢侈品不像軟體工程師是必需品、職稱・徵人條件與職務內容混亂不一致、素質參差不齊、data scientist 產出的價值不如想像中的高等等,這些都是事實。

事實上,根據 BCG 與 MIT 在 2020 年做的共同研究中 [2],只有 10% 的公司表示他們在實現人工智慧中得到了顯著的利益。成功實踐 AI 的要件包含了正確的資料、技術、專業性人才以及能理解這些技術並有效將技術與公司策略融合的管理者等等。

回想筆者在碩士時期,也跟大部分的學生一樣。課程上非常注重演算法的推導,以及如何建模讓模型的表現更優異等。進入實務界才發現這些知識及運用只佔了一個成功的機器學習系統的一小部分。更重要的課題是如何創造有意義的商業價值、並且隨時調整模型,讓模型能夠即時應對現實世界中快速的變化。

 

(5)What’s next?

 

機器學習的實務運用、Open source Library、教育資源,在近幾年都趨於成熟。筆者看到的趨勢是機器學習模組化(modularity),也就是說,數位訓練良好的data scientist之間,所建出的模型,並不會造成太大的差異。

每年想搶灘上這波浪潮上岸的畢業生,從學校蜂擁而出,生為職業的data scientist在長期發展上該如何產生差異化,避免被取代?

 

 

在此將 Data scientist 定義為「透過數據分析、機器學習建模及實踐,進而創造商業價值的職位」。因此身為一位Data scientist,基本上被期待有兩種能力:1. 一定程度的程式、建模能力 2.透過量化分析及運用進而創造商業價值的能力。要加強自己的競爭力,可以依照自己的志趣及能力,如上圖中兩座標軸的方向思考。

Business Impact 方面:包含改善產品收益、負責產品績效,大則影響公司策略,甚至讓數據科學成為公司的核心能力(core competence)。如何站在經營者角度思考並做決策將成為最優先的課題。
Engineering方面:又可分為創新機器學習演算法的開發,以及工程領域能力的加強。前者可以進入Researcher的領域,後者能進一步轉為ML engineer/data engineer 等。

要培養前者的能力(雖然也很看天賦),大多數人會選擇做的就是去讀博班並且進科技大廠擔任研究者,或是在公司內部針對現有議題開發新的演算法,並帶職發表論文。後者則會牽涉到更普遍軟體工程師領域的能力養成。

 


 

作者: Leigh Tsai 
原文連結:Data Scientist 的過去、現在與未來

Medium 會不定時發表作者在世界各地 [3] 擔任data scientist的產業觀察、讀書筆記等等。若有任何心得、想要討論的地方,歡迎留言分享您的想法:)

[1] Data Scientist: The Sexiest Job of the 21st Century https://sociology.berkeley.edu/sites/default/files/documents/job_market/Data%20Scientist%20–%20HBR%202012.pdf
[2] Are You Making the Most of Your Relationship with AI? https://www.bcg.com/publications/2020/is-your-company-embracing-full-potential-of-artificial-intelligence
[3] 目前任職的職位是全球性的Data scientist。礙於疫情活動地點有限。

 

首頁圖片:“Wrapping one’s head around the data” by Unhindered by Talent is licensed under CC BY-SA 2.0

日本職活 Worklife In Japan

文章發布帳號
如果有興趣投稿(匿名可)或是想推薦訪問對象, 請和我們聯絡
contact@worklifeinjapan.net
日本職活 Worklife In Japan