数据科学50年,数据科学家是否依然是21世纪最性感的职业?


    在如今的数据智能时代,几乎所有人都相信“数据的真实价值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而绝大部分则隐藏在表面之下。”当数据的价值依然在冰山之下隐藏,外面的世界便弥漫着对数据的渴望。
    
    一些新的职业成为数据海洋里的新星,“数据科学家”无疑是最亮的之一,它被誉为21世纪最性感的职业,但是近年来随着平民数据科学家的发展,有人指出数据科学家将要消失,也有国外相关人士建议不要去选数据科学家这个职业,数据科学家还是21世纪最性感的职业吗?
    数据科学五十年仍是少年
    数据科学家泛指数据科学的从业者,追溯数据科学家的源头可以到数据科学诞生的1966年,当时Peter Naur提出"数据科学"(“DataScience”起初叫"datalogy "),用来代替"计算机科学"。1996年,International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议(Data Science, classification, and related methods)标题里。
    在2000年代中期数据科学家职位开始出现,2009年Natahn Yau指出数据科学家是是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师,数据科学家集技术专家与数量分析师的角色于一身。
    实际上大数据和数据科学在内的整个数据行业最初都是由Google、Facebook、Twitter等互联网巨头驱动,现在仍然如此。总部位于欧洲的JetBrains是国际知名软件开发工具提供商,其产品经理Andrey Cheptsov认为互联网巨头能够推动数据行业的发展首先有所需求、并有能力进行大规模有效处理数据,其主要业务模型从核心上取决于自身处理大规模数据的效率。
    随着大数据行业的发展,数据科学家成为了职场新星,更是被财富杂志誉为21世纪最性感的职业。但是数据科学家在初期成长也并非一帆风顺,根据商业智能公司SiSense在2012 年左右的一项报告,在接受调查的全球400位数据科学家和数据分析人士中,59%的数据科学家在从业六年后都另谋高就。尽管该职业的报酬丰厚,其中超过半数表示对职业安全性的担忧。
    彼时麦肯锡等咨询公司力挺数据科学家,坚信数据科学家是当今和未来稀缺的资源。随着智能手机的普及移动互联网的发展,数据价值越发凸显,数据科学家水涨船高。LinkedIn 发布的《2017 年美国新兴工作岗位报告》中指出,“自 2012 年以来,数据科学家的职位增长了 650% 以上”且“数百家企业都在招聘这些职位”。
    国内近几年也有互联网公司近几年开始逐步设立独立的数据科学(DataScience)团队,推动公司向数据驱动发展。进入21世纪20年代,数据科学家成为更稀缺的资源,很多人也依然相信它还是21世纪最性感的职业。
    不过荣誉傍身的新星也有“暗淡”的一面,2017年有研究指出数据科学家成为离职率最高的职位之一,通常他们每周都会花费一定的时间寻找新工作。日前仍然有数据科学家从业者劝谏后来者不要入坑,可谓是冰火两重天,何以至此?
    数据科学五十年依旧是少年模样,就如同“AI”这个名词在1956年出现到如今60多年才有初步落地,数据科学是一个综合性的学科,国内外很多从业者认为数据科学依然是探索性的工作,管理层对 “数据科学” 的含义往往没有达成共识。
    虽然已经经过至少10多年的发展,现在可能受限于业务,没有办法生搬硬套一个角色框架给数据科学家,企业也容易将数据科学家和数据工程师混淆。JetBrains产品经理Maria Khalusova认为“数据科学家”和“数据工程师”这两种职位角色在行业中还是相当新的,也正因此,通常没有明确的职责划分。“我们看到在某些公司中由数据科学家承担的职责,在其他公司中这些职责却由数据工程师承担。另一个越来越常见的新角色是机器学习工程师,但也是同样的情况,他们也经常与数据工程师发生重叠。”Maria Khalusova在接受IT168采访时指出。
    数据科学家VS数据工程师
    新的技术融入产业和社会必然会带来一场职业的辞旧迎新,这个过程并没有那么快速。
    “从技术角度来看,数据科学在某些情况下的实践似乎还不如传统软件开发成熟。企业可能会面临以下挑战:建立可重现的机器学习管道,对数据和模型进行版本控制以进行审核,与快速发展的技术保持同步。”Maria Khalusova指出。
    数据科学家和数据工程师的角色两者有许多共同的特点和共技能。这些重叠的技能包括处理和操作大数据集、应用数据的编程技能、数据分析技能以及对系统操作的总体熟练程度。不过两者还是有很大的不同。在笔者之前翻译的文章中也强调了数据科学家和数据工程师不可能合二为一,为了从数据中获得价值,大多数企业组织都需要数据科学和数据工程,由于相关技能有很大差异,二者合体也不太现实。企业组织可能需要多个数据科学家和数据工程师,但两者之间的比例很少是1:1。对于大多数企业组织来说,拥有更多的数据工程师比数据科学家更有意义。因为数据科学家已经学会处理大量的干净数据,但是从许多不同系统获得大量的干净数据更难也更具挑战。与抽象数据模型和对数据集运行分析相比,移动和清理数据的工作量更大。
    从技能需求方面也有很大的差异,Maria Khalusova认为,广义上来讲,数据工程师通常必须熟悉那些为分布式数据处理而设计的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他们要具备数据仓库和数据湖方面的经验,因为他们需要能够熟练地使用Java、Scala和Kotlin等JVM语言,并且必须能够创建和维护大多数数据基础架构。
    
    
    1  2  下一页>