人工智能背后的低薪工人:“数据标注人”成AI产业重要支撑


    随着科技的进步,人工智能技术深入各个领域,深受众人追捧。而在AI技术背后,其实隐藏着一大批廉价劳动力。拿着低薪,服务国际科技巨头?
    据今日消息报道, 克丽丝特尔·考夫曼已在亚马逊旗下的众包网站MTurk工作7年。考夫曼说,其中许多工作都是训练人工智能(AI)项目。她是推动AI发展的大量劳动力中的一员,他们的工作包括查看大数据以标记图像、过滤不适合上班时间浏览的内容、为图像和视频中的物体注释等。对于许多公司内部的开发人员来说,这些工作既机械又单调乏味,通常被外包给零工工人或主要生活在南亚和非洲并为数据公司打工的人。
    大批“廉价劳动力”推动AI发展
    “我们习惯于做一些我们不知道用途的事情,我们只知道我们是在为一些大型科技设备劳作。你可能很少会听到一家大型科技公司承认隐藏在技术背后的隐形劳动力。”考夫曼说道。
    像Meta和亚马逊这样的大公司拥有强大的AI开发团队。科技巨头设想在不远的未来,AI可以代替许多人类工作,并释放出新的生产力。但这种愿景忽视了一个现实,即我们认为的大部分AI,其实都是由从事单调乏味工作的低报酬人类劳动力来推动的。实际上,科技公司会雇用数以万计的零工工人帮助开发AI。AI开发与材料生产周期之间的共同点远比我们意识到的多得多。
    牛津大学互联网研究院公平工作项目博士后研究员凯勒·豪森表示:“我认为公众并没有深入意识到这是一条供应链的现实。实际上,这是一条全球供应链,建立在大量人类劳动力的基础之上。”
    与其他全球供应链一样,AI的链条也非常不平衡。位于全球南方的发展中国家正通过承担低工资工作来推动AI系统发展,包括测试、数据注释与标记以及内容审核等,而位于全球北方的国家则是“权力中心”。“从在微工作平台上工作的人数来看,‘全球南方’远远超过‘全球北方’。这些平台上的大部分劳动力供应都集中在‘全球南方’,而大多数需求都位于‘全球北方’”,豪森说,“我们从农业食品、纺织业等其他供应链的经验中得知,当这些工作外包给低收入劳动力和低收入国家时,通常很难保证良好的工作条件和应有的劳动保护。”
    在2021年一篇有关全球劳动力如何促进AI发展的论文中,包括康奈尔大学计算机科学系博士生奥克洛在内的研究人员认为,目前将“全球南方”工人纳入AI链条是一种不平等的现象,西方国家利用来自“全球南方”的人和资源获取廉价劳动力,以使其机构和企业从中获利。
    今年5月,前内容审核员在肯尼亚内罗毕提起诉讼,指责Meta及其外包伙伴Sama存在的不公现象。研究人员指出,像Sama这样的标记和内容审核公司虽在美国运营,但其劳动力严重依赖撒哈拉沙漠以南非洲和东南亚的低工资工人。
    专家表示,外包对大型科技公司有利,不仅为它们省钱,还能使它们更容易躲避严格的司法审查。大多数人都认同这种现实:从开发模型到审核错误,人类将永远是AI的一部分。因此,AI专家认为,人们应该聚焦于如何使AI开发以合乎道德和可持续的方式让人类参与其中。
    “数据标注人”成AI产业重要支撑
    机器学习的训练需要大量数据,在过去十年中,机器学习对高质量手工标注数据的需求飙升。一位在数据标签公司工作的年轻人说:“我曾经认为机器是天才,但现在我才知道我们(人类劳动者)才是它们成为天才的背后原因。”
    所有新兴行业,包括人工智能,都伴随着新型蓝领劳动力的需求激增。在从事AI相关的公司内,比老一代更精通技术的年轻工人正在从事手工标记数据工作。
    AI虽是科技发展的理想成果,但没有手工标记就没有机器学习,因此人工智能生态系统需要这样的行业。
    中国的数据标注行业最早可追溯到 2005 年,著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。
    2015 年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。
    许多数据服务公司作为乙方进入到日益扩大的市场,为百度、阿里等大型互联网公司,以及 AI独角兽企业等服务。
    正如一位中国数据标签公司的联合创始人所说:“我们是数字世界的建筑工人。我们的工作是不断地铺盖一块又一块砖。但如果没有我们在人工智能中发挥的重要作用,他们无法建造AI这座摩天大楼。”
    中国信通院报告指出,现阶段 AI 应用研发,数据标注是根本,10 年之内都要依赖于标注数据。
    至于机器什么时候能够取代人工数据标注,至今仍没有人能说出明确答案。但有媒体看到,在数据标注各式各样的 QQ 群里,依然每天不断出现新的项目需求和个人兼职的信息,依然不断有关注数据标注行业的大量讨论。