三倍速解决数据标注大工程,谷歌AI“数据标注协助师”亮了


    随着智能系统的普及,深度学习和人工智能的不断崛起,让科学界看到了一切事物智能化的可能性。人工智能技术正被用来处理各类复杂的事情,然而要完成机器的智能化训练,需要依靠数量极为庞大的数据集。而这些数据在用于机器学习训练之前,需要先进行明确的标注,机器只有通过学习大量已明确标注名称的数据后,才能做到自主识别并进一步作决策。
    数据标注:机器的“导师”
    机器学习分为有监督学习和无监督学习。无监督学习的效果常被用来做探索性的实验,是不可控的。而在实际产品应用中,通常使用的是有监督学习,即用有标注的数据来作为先验经验。某种程度上讲,带有标注的大量数据,就是机器学习的指导老师,每一个标注的图像数据将会影响到最终的算法结果。
    数据标注有许多类型,如分类、画框、注释、标记等等。在进行数据标注之前,首先要对数据进行清洗,得到符合要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。常见的几种数据标注类型有:分类标注、标框标注、区域标注、描点标注等,还有一些需要根据不同的需求进行不同的标注。
    有多少智能,就有多少人工
    随着数据的需求量日益猛增,所需用来完成数据标注工作的劳动力也随之高涨。很多知名的科技公司会雇佣大量人力来完成这样细碎的任务,用以支撑机器学习。亚马逊,苹果,谷歌,微软等等,他们要么拥有自己的劳务众包平台,例如亚马逊劳务众包平台“Amazon MechanicalTurk”;要么使用第三方服务,例如AMT。
    而在国内,除了有百度旗下类似众包模式的数据平台-百度众测,还存在着这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给兼职的自由人士。这条产业链上,随着层层分包,最终落到最底层的数据标注师薪酬就低得惊人。
    目前的数据标注工厂,多集中在河北、河南、山东、山西等传统人力密集企业的选址偏好的地区。然而这些数据标注工厂又被冠以“人工智能行业的富士康”。为了应对庞大的数据标注需求,标注员们必须加班加点盯着电脑屏幕,夜以继日地重复枯燥的工作。这些人力为AI产业提供养料,这是AI金字塔的基础,处于最底层。
    北京和贵阳,便是数据标注世界里的两座“双子星”城市。北京聚集着大量的人工智能公司,不断地涌出数据需求;而贵阳则着力发展“大数据战略”,以更低廉的劳动力成本支撑起聚集在首都的人工智能底层数据需求。
    一名没有任何经验的标注员,半天的培训即可开工,一两个月之后可变成熟练工,一天就可以完成1500张-2000张图片的标注。然后,这些数据会被应用到自动驾驶、AI安防、智能身份认证等人工智能应用领域。在某种程度上,这就意味着AI算法的优化,取决于数据标注的质量,而把控这些质量的,是完全不懂AI技术的一群人。
    谷歌AI协助数据标注,效率提高三倍
    前一段时间,谷歌在其AI博客上介绍了一款基于AI和深度学习的图像标注方式——“流体标注”,它使用机器学习来注释类标签并勾勒出图片中的每个对象和背景区域。可作为人工标注者的有力辅助工具,谷歌声称它可以将标记数据集的速度提高三倍,有望缓解目前机器学习研究中,高质量的训练数据获取难的瓶颈。
    流体标注从预训练的语义分割模型(Mask R-CNN)的输出开始,该模型生成大约1,000个具有类别标签和置信度分数的图像片段,其中具有最高置信度的片段将被传递给人类工作者以进行标记。注释器可以通过仪表板修改图像,选择要更正的内容和顺序,将现有细分的标签与自动生成的短名单进行交换,添加细分以覆盖缺失的对象,移除现有细分或更改重叠细分的深度顺序。
    “流体注释是使图像注释更快更容易的第一个探索性步骤,”Google机器感知部门的高级研究科学家Jasper Uijlings和Vittorio Ferrari在博客文章中写道。“在未来的工作中,我们的目标是改进对象边界的注释,通过包含更多的机器智能使界面更快,最后扩展界面来处理以前看不见的类,最需要高效的数据收集。”
    虽然这种方式尚未落实到具体工作之中,但仍是值得期待的一项技术。并且在国外,谷歌并不是唯一一个将AI应用于数据注释的人。
    旧金山创业公司Scale采用人工数据贴标机和机器学习算法的组合,为Lyft,通用汽车等客户分类未标记的数据。总部位于瑞典的Mapillary  创建了一个街道级图像数据库,并使用计算机视觉技术分析这些图像中包含的数据。
    以人力助AI,实则本末倒置
    “有多少人工智能,就有多少人工。”其实这就是一种本末倒置,原本人工智能是为了方便人们生活,协助人们工作,提高工作效率,如今却形成了凭借大量廉价劳动力托起人工智能的局面,当国外开始着手于使用AI解放劳动力时,国内的人工智能公司是否也应该将视线移至最初最源端的数据标注呢?
    用人力堆砌起来的人工智能,永远不能称为真正的人工智能。