数据永动机？合成数据的美梦与陷阱

2024.04.22 算力智库

    距离数据用光还剩3年时间。
    以上是研究机构Epoch给出的一个初步估计，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”，低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。
    数十亿参数起步，以TB为单位的数据集喂养，百模大战，千模大战的持续上演，正在以燃尽数据为代价，当数据荒变成直观的倒计时时，这种迫近的危机感才开始在整个产业圈蔓延。
    高质量数据告急
    第一个感受到数据荒危机的便是那些亟需数据的AI公司们。
    继算力缺口后，数据成为最紧俏的资源，数据采集要价也在水涨船高。自2008年以来，Reddit API一直是以免费的方式开放给第三方，然而近期，Reddit通知开发者将从7月1日开始使用用数据接口进行收费。根据第三方软件Apollo的开发者Christian Selig透露，Reddit的收费为0.24美元/1000次API响应。对于Apollo来说，这就相当于200万美元每月或2000万美元每年的开销。
    而根据推特今年3月发布的API新政策，企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用，对应可以获得5000万至2亿条推文。根据测算，最低一个档次的套餐约等于整体推文的0.3％。
    数据变贵了，这点已经成为业界心照不宣的共识，而大模型混战无疑让数据供不应求的局面进一步加剧。
    已有的（通用）数据资源似乎已经接近效能极限，Cohere首席执行官Aiden Gomez表示，网络上那些通用数据已不足以推动AI模型的性能发展。
    的确，大模型竞赛就像上了发条一样，一旦触发，便没有停下来的间隙，需要保证不断的摄取营养，当大模型发展走向更深度，比如行业大模型，其所需的数据就不是互联网免费公开的数据了，要训练出精度极高的的模型，需要的是行业专业知识，甚至商业机密类型的知识。
    而恰恰目前全球数据供给的现状，70%的数据源都仅仅停留在免费公开数据集的层面，这与大模型成长所需的理想数据环境相差甚远，一些行业的垂类大数据，比如金融、医疗、科研、行业型大数据还远未开掘，一位业内人士透露。垂类数据通常由政府和行业机构掌握，而出于数据安全合规的考虑，行业机构愿意把核心数据拿出来开放共享的又在少数。而从原生的数据资源到数据资产化再到形成数据产品，这个数据形态演变的过程，需要经历数据的筛选、分级和标注，中间附着的人力成本和硬件成本都极为不菲，初始收集的数据总量，到最后可用的数据量可能只有70%，相比于算力，数据的稀缺性更为突出。
    如果说全球都难逃数据荒，那么“重灾区”更显见于中文语料。
    可能会有人说，中国有14亿人口和5千余家上市公司，全社会的数据资源存量排在全球第二，应该在数据上是长板，但数据表明，全球通用的50亿大模型数据训练集里，中文语料的占比仅为1.3%，一些主流数据集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文为主，最流行的Common Crawl中文数据也只占其4.8%。“大而不强”是中国数据市场比较刺眼的现实，在国内来看，据统计，数据资源80%集中在公共和政府事业单位。而据发改委官方披露，我国政府数据资源占全国数据资源的比重超过3/4，但开放规模不足美国的10%，个人和企业可以利用的规模更是不及美国的7%，开放程度远低于美国。
    流于“形式开放”正成为我国公共数据开放的症结，据公开资料统计，我国各级地方政务数据开放网站开放的数据普遍周期较长，地方平台约有46%的平台没有更新数据，只有8.5%的地方平台连续两年发布了新的数据集。
    开放程度低是一大掣肘，数据质量差才是卡脖子的首要因素，目前的中文公开数据集不是没有，近2个月来，国内不少团队先后开源了中文数据集，除通用数据集外，针对编程、医疗等垂域也有专门的开源中文数据集发布。开源的还包括MSRA-NER、Weibo-NER等，以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在，但整体数量和质量，和英文数据集相比可谓九牛一毛。并且其中相当一部分的内容已经非常陈旧。
    数据荒有救了？合成数据成“新赛道“
    数据的捉襟见肘让大模型的进化难以为继，高质量数据从哪里来？
    旧路难循，便开始造新路。7月25日，深圳数交所联合近50家单位成立“开放算料联盟”，抱团聚力。参与公司不仅有联通、电信两大运营商以及腾讯云，还有多家A股公司，合力汇集论文、政策、报告、标准、法律、代码、古籍、中医药、基因及蛋白质结构等多模态的训练数据，为数据交易增加合成数据、标注数据、模型参数等新专区和新品类，合成数据正成为生成和丰富AI训练数据的第二条路。
    何谓合成数据？合成数据即由计算机人工生产的数据，来替代现实世界中采集的真实数据，来保证真实数据的安全，比如用户小A有10个特点、用户小B有10个特点、用户小C有10个特点，合成数据将这30个特点进行随机打散匹配，形成3个全新的数据个体，这并不对准真实世界的任何一个实体，但却有训练价值，作为真实数据的“平替”，合成数据高效、廉价并且不涉及个人隐私和公共利益，且可以兼顾数据多样性和公平性，理论上可以生成所有数据，包括现实世界中难以采集或几乎不存在于现实中的极端案例，最大化地提高模型的精准度，纠正历史数据中的偏见、消除算法歧视，优越性不言而喻。
    对于有些行业而言，合成数据具有天然的应用适配度，比如自动驾驶，让汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的，故大量的合成数据可以用于模拟各种驾驶场景，从而提高算法的鲁棒性。在这种情况下，合成数据可能占据训练数据的很大一部分，甚至高达90%以上。
    而对于数据敏感的金融和生物医药领域，在不提供敏感的历史交易信息的前提下，训练量化交易模型，从而提升获利能力；而在药物研发工作上，通过合成数据集，可以在不泄露患者隐私信息的条件下训练相关模型，加速新药研发过程，发现潜在的治疗方法，提高医药领域的效率和准确性。
    更重要的一点是，一直以来，数据标记都被视为现代机器学习中一个笨拙、不雅、成本高昂的部分，而合成数据不需要手动标记，自动带有完美的数据标签，这一点已经足够迷人。
    巨大的刚需和高景气度面前，合成数据不捧自火，国外的主流科技公司已经在纷纷部署，比如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator；亚马逊使用合成数据来训练、调试其虚拟助手Alexa，以避免用户隐私问题；微软的Azure云服务推出了airSIM平台，可以创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器，微软、OpenAI、Cohere等公司都已经开始测试使用合成数据来训练AI模型...
    其中也少不了自动驾驶汽车厂商们，早有布局，比如Waymo、Cruise、Aurora、Zoox等，都在合成数据和模拟方面进行了大量投资，并将其作为其技术堆栈的核心部分。例如，2016 年，Waymo生成了 25 亿英里的模拟驾驶数据来训练其自动驾驶系统（相比之下，从现实世界收集的驾驶数据仅为 300 万英里）。到 2019 年，这一数字已达到100 亿英里。
    而国内，腾讯、阿里巴巴、百度走在前列。腾讯自动驾驶实验室开发的自动驾驶仿真系统TADSim可以自动生成无需标注的各种交通场景数据；阿里巴巴自研的语音合成技术KAN-TTS可将合成语音与原始音频录音的接近程度提高到97%以上；百度也发布了多个数据合成与半自动标注工具。
    值得关注的是，合成数据已经自成赛道，一批瞄准合成数据为主攻方向的数据新势力集中涌现，出现的第一批合成数据初创公司瞄准了自动驾驶汽车终端市场。其中包括 Applied Intuition（2022年估值180亿人民币，入选全球独角兽榜）、Parallel Domain 和 Cognata 等公司。
    而近段时间以来，围绕为企业落地AI提供合成数据服务的初创企业也开始疯狂刷屏，国内合成数据公司光轮智能于今年1月份才创立，便宣告连续拿到了种子轮、天使轮、天使+轮融资，累计融资金额达数千万元；新加坡合成数据初创公司Betterdata也于日前宣布获得了一笔165万美元规模的种子轮融资，资本市场对于合成数据的青睐可见一斑。
    数据永动机的“美梦与陷阱”

    数据永动机的美梦似乎正在成真，合成数据暗含的变革可能性开始吸引越来越多人驻足和买单。
    不单单体现在数据的无限生成，看好合成数据的人认为，合成数据可以帮助解锁各种基于语言的机会，此前困于数据有限而无法深入研究的领域可以松开镣铐，大展拳脚了。
    举例来说，2021年年底，全球领先的基因测序公司 Illumina宣布与初创公司 Gretel.ai 合作创建合成基因组数据集。基因组数据是世界上最复杂、多维、信息丰富的数据类型之一，长度超过 30 亿个碱基对，每个人独特的 DNA 序列在很大程度上定义了他们的身份，从身高到眼睛颜色，再到患心脏病或药物滥用的风险。（虽然不是自然语言，但基因组序列是文本数据；每个人的 DNA 序列都可以通过简单的 4 个字母“字母表”进行编码。）基因研究有助于解码生命奥秘，探索人类健康，但由于基因组数据的可用性有限，这项研究一直迟滞不前，很难突破，围绕人类基因数据的严格隐私法规和数据共享限制也成为极大阻碍。
    而合成数据提供了一种潜在的革命性解决方案：它可以复制真实基因组数据集的特征和信号，同时回避这些数据隐私问题，因为数据是人工生成的，并不对应于现实世界中的任何特性个体。
    基因数据的用例只是冰山一角，从早期的计算机视觉，到如今的机器人技术再到物理安全，从地理空间图像到制造，从生物医药到基因研究，凡是需要“大量数据出奇迹”的领域，合成数据都代表着强大的解决方案。
    而更为隐性的层面，合成数据的出现或将带来数据平权的曙光，通过使高质量的训练数据更容易获得和负担得起，合成数据将削弱专有数据资产作为持久竞争优势的优势。
    从科技史发展的脉络来看，强者恒强的马太效应通常都是仰赖于数据的底层原料，“滚雪球般”的数据累积让谷歌、Facebook和亚马逊等科技巨头始终占据着得天独厚的优势，而合成数据的兴起或将赋能全新一代的人工智能新贵，并通过降低构建人工智能优先产品的数据壁垒来掀起人工智能创新浪潮。
    当然，美梦固然很美，但也有人在质疑。
    来自牛津大学、剑桥大学、伦敦帝国学院等机构的研究人员今年5月发表论文称，AI用AI生成的数据进行训练，会导致AI模型存在不可逆转的缺陷，最终走向模型崩溃（Model Collapse），也就是，新一代模型的训练数据会被上一代模型的生成数据所污染，从而对现实世界的感知产生错误的理解。更进一步，这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题，尤其是如果生成 AI 随着时间的推移学会在其响应中只生成某个种族，而忘记其他种族的存在。
    需要注意的是，模型崩溃的过程与灾难性遗忘（catastrophic forgetting）不同，模型不会忘记以前学过的数据，而是开始把模型的错误想法曲解为现实，并且还会强化自己对错误想法的信念。
    而更为预料不及的是，由此带来的合成数据泛滥，真实数据难以寻觅，真实与虚拟的边界消弭，人们再难辨清自己是活在真实还是虚拟。