当机器学习遇见“众包”,新一代人工智能训练模式诞生


    十多年前,我第一次接触“众包”这个概念,当时我还是伦敦商学院的一名学生。那天,我们的教授拿着一罐硬币走进了教室。
    他让我们每个人都猜一下罐子里有多少钱。罐子在教室里传了一圈,同时教授在白板上记下了每人的猜想数额,总共有100左右,当时我估计里面有30英镑。所有同学都估计完毕后,教授打开了一个信封,从中取出了一张纸条并告诉我们:罐子里的硬币实际金额为18.76英镑。
    最开始我认为教授想要告诉大家,“罐中币”这个猜想本身是不合理的,但教授接下来的举动却出乎我的意料:他计算了我们所有人的猜测数目的平均值,计算结果出奇地接近18.76英镑。众人智慧的力量就这样呈现在我们眼前,并且比我们自己99%的估计值都要精准(我们中只有一个人确实猜到了真实的数额)。
    几个月后,我和我的同学Janeen成立了一家众包公司。当时我们召集了最优秀的安全和防务创新者来解决行业和政府客户方面复杂难题。那是2005年,当时的众包浪潮孕育了InnoCentive、维基百科以及Amazon Mechanical Turk,这三家公司在获取和使用大众的知识和灵感方面处于领先地位。
    现有公司还启动了各种众包计划,共同创建像My Starbucks Ideas(星巴克客户意见及创意反馈网站)这样的产品,以抓牢客户和供应商的心。
    第二代众包
    在过去的几年里,众包已经发展成为一种更务实的企业方法,企业们进行众包不再是为了共创产品或者提高创造力,而是为了对他们的人工智能系统进行训练。
    谷歌董事长兼长期服务首席执行官Eric Schmidt在2016年表示,下一代谷歌将成为众包AI公司。他说,如果他想创办一家新公司,他会以众包的形式从众多专家中获取数据,并用于培养具有学习能力的人工智能,这些人工智能最终会变得比任何一位专家都更加优秀,然后我们会将我们的人工智能反过来卖给这些专家。
    还有一些大型企业利用众包来提供那些通常由承包商或员工执行的服务。例如,Swisscom收购了众包平台Mila,并将其维护和维修工作进行对外众包。该公司似乎还希望通过智能手机和AR从这些人群中收集数据,用于培训AI系统来执行大部分人工工作。
    那么人群目前来讲只是AI的炮灰吗?
    众包的关键是外包“微任务”,这些“微任务”往往不需要个人付出太多努力(比如猜测罐子里的硬币数额),但当这些任务被众人执行时却能带来真实的价值。
    在人工智能的时代,我们看到了这样的一个反差现象:单独的个人数据是无用的,但数千个的众人数据却能够共同创造出真实价值。
    但我预测众包会走的更远。今天,我们正在利用人群的知识以对数据进行判断——例如将图片标记为日落或日出。但下一步将是人群自主提供数据集,例如,我们可以每天以人工智能系统所需的数据格式提供有关我们自己的健康信息,以便医药公司开发新药。比如我曾经推荐过的一家强大的非营利性企业,即CancerBase,就正在研究治疗癌症的方法。在下一代众包中,人群将会因其提供数据而获得报酬,或者像CancerBase一样,人群将会自愿免费提供数据,以帮助推进人类医疗水平的发展。
    那么在新一代的众包背景下,我的“罐中币”问题会变成什么样呢?教授不会要求学生对硬币的数量进行估计,而是要求他们每个人从钱包中拍下一组随机的硬币照片。然后,学生将会在照片上写上图片中的硬币数量,并将这张照片发送到AI应用程序,然后该AI就精确地判断出任何罐子中包含的硬币数额。
    欢迎来到一个崭新的众包世界,而我们每个人都将为众包提供数据。