低学历的印度数据标签工,正成为全球AI功臣
Kumaramputhur是喀拉拉邦Palakkad西北约45公里处的一个小村庄,约有3500个家庭在这里居住。这个村庄没有第一产业可言,它的性别比例和识字率都低于该州的平均水平。除了有一些现代化的痕迹,这里似乎没有什么值得引起注意。
然而,正是在这个村子里,高中辍学生Mujeeb Kolasseri指挥着一支由200多名员工组成的团队,为美国、欧洲、澳大利亚和亚洲的客户开发人工智能解决方案。Kolasseri 于三年前创办了这家名为Infolks的公司,28岁的他是该公司资格最老的成员。
该公司的办公室位于连接Palakkad和Kozhikode的高速公路上,虽然不起眼,但团队里的大部分成员都在这里工作。他们所要做的就是将固定在自动驾驶车辆上的摄像机拍摄的车辆、交通灯、路标和行人的图像进行强调和标记。这份工作看似简单,但却很困难,因为他们需要将激光雷达遥感器捕获的数据进行精确标记(激光雷达为自动驾驶车辆创建3D地图,以获得对周围物体的感知)。
约2000公里之外,加尔各答西南边缘的梅蒂阿布鲁兹胡格利河岸附近,约有200名妇女正在给图像贴标签,这些图像将用于训练自动驾驶车辆和增强现实系统中的算法。
“他们参与着一些我们最前沿的图像项目,”数据注释公司iMerit的技术和营销副总裁Jai Natarajan表示,其员工参与标记和准备数据,以训练人工智能算法。
iMerit在加尔各答、兰奇、布巴内斯瓦尔、维扎格和夏隆办事处的数千名员工也在从事着类似的工作,通过给数百万数据贴上标签,帮助训练全球各大公司开发的人工智能算法。
全球企业巨头正在逐步采用人工智能,为人工智能算法提供支持的数据集也变得越来越专有,所以这些公司需要在要求、质量控制、反馈和交付方面与数据标签团队进行更高程度的合作。
由于本世纪初业务流程外包的繁荣,印度人对这些行话和要求并不陌生。数据注释和标记也是一种由流程驱动的工作,需要精确的工作和技能,即使是受过高中教育的人也可以接受培训。
随着以众包为主的第一代工作被更先进的要求所取代,Infolks、iMerit和Playment等公司开始迎合全球客户,并使印度成为数据标签和注释工作的新兴中心。
“这是一个新兴行业。在印度,每个人都已经开始意识到它带来的巨大机遇,”印度科技产业机构Nasscom的高级副总裁兼首席战略官Sangeeta Gupta表示。“人工智能需要适当注释、分类和匿名的数据。为此,不管喜不喜欢,你都将使用自动化,但你也必须使用熟练的人力资源,而这就是它给印度带来的机会。”
根据研究公司Cognilytica的一份报告,到2023年底,与人工智能和机器学习相关的数据准备解决方案的全球市场,预计将从2018年的约5亿美元增长至12亿美元。
什么是数据标记?
通过数据标记和注释,来自非结构化来源(如照相机、传感器、电子邮件和社交媒体等)以及来自结构化来源(如数据库)的数据集被标记、标注、着色或突出显示,以标记出差异、相似性或类型。通过这样的方法,当数据被输入到用于训练人工智能系统的算法中时,该算法可以正确地识别数据并从中学习。
比方说,你想训练一种算法,利用车载摄像机拍摄的图像来理解路标。数据标签工或注释工将通过图像数据集,使用标注工具标记或高亮显示路标,并将其输入人工智能算法进行学习。下一次,当算法在一个区域内实时行驶并遇到路标时,它应该能够识别出路标。算法训练的路标图像越多,其准确性就越高。
推动人工智能或机器学习激增的是从互联网、社交媒体、传感器和其他来源获取的大量数据。如今的算法有能力吸收更多的数据,从而也更精确。只要数据是优质且干净的,将另外一百万个数据集输入一个算法将会提高它的准确性。因此,这也导致了人工智能算法和应用对标注良好的数据产生了无止境的渴望。
根据Cognilytica的报告,现如今,数据准备和工程任务占据了大多数人工智能和机器学习项目80%以上的时间。
“比如自动驾驶,一个小时的视频数据可能需要消耗800个工时,”Playment首席执行官Siddharth Mall表示。
Infolks之旅
Kolasseri高中辍学后,在铝加工行业工作,但由于健康原因不得不离开。在国内,他注册了亚马逊称为“Mechanical Turk”(MTurk)的众包就业市场,并开始从全球各地的公司从事注释工作。
“我能够保持99.8的评级是因为我能够提供高质量的服务。我工作过的一家公司非常喜欢我的工作,于是直接找到我,并提供了更多的工作,”Kolasseri说,他随后成立了一个六人团队来完成这项工作。“我们最初在家工作,2016年初,随着业务的增长,我决定注册成立这家公司。”
最初,Kolasseri的兄弟和一个朋友投资了2.5万卢比,帮助他建立了这家公司。如今,Infolks是一个正在成长中的团队,其大部分员工来自Kumaramputhur及其周边地区。
Kolasseri说:“公司的愿景是将我们的村庄变得全球化,并为农村地区的年轻人提供经济机会。近200名员工中有90%在20到25岁之间。”
尽管该团队也负责医疗保健、机器人和农业等领域的数据集,但他们大约75%的工作都是在自动驾驶车辆领域。其客户包括德国汽车公司戴姆勒和其他国际科技公司,由于签署的协议,Kolasseri并未透露这些公司的名称。
至于注释,该公司使用客户提供的工具,或者使用第三方工具。“我们的研发团队正在开发自己的注释工具。它目前正在测试中,应该会在接下来的几周内推出,” Kolasseri表示。Infolks还在Kozhikode区附近的一个科技园区内设立了另一个办事处。Kolasseri希望这能够增加公司的收入,因为新的地点属于经济特区,有助于扩大其全球客户群。
1 2 下一页>