证实!字节大模型训练遭北大实习生投毒


    本周有消息称,北大某田姓研究生在字节实习期间,利用 huggingface 的漏洞给字节大模型注入了破坏代码,导致其训练成果不可靠,而重新训练带来的损失或超千万美元(8000 多张 GPU 显卡)。
    GitHub 上公开了田某某的录音,成为实锤证据。
    知情人士在 Gitbub 上称,“你(指田某)在长达 2 个月的时间里对集群代码进行恶意攻击,对公司近 30 位各级员工造成巨大伤害,让你的同事近一个季度的工作白费。所有的记录和审查都证明这是不容狡辩的事实!”
    此事在网上传的沸沸扬扬,字节昨日回应。
    回应要点有三:1.事情属实;2.该事未影响大模型商业化;3.“损失千万美元” 属严重夸大。
    据悉,事情原委是高校博士生田某今年 6 月在字节跳动 AI Lab 实习期间,因对团队资源分配不满,使用攻击代码破坏了团队的模型训练任务。田某于 2021 年 9 月起在该单位实习,所在团队刚在今年 4 月与北大王立威团队提出了 VAR 研究。
    字节跳动内部调查确认了是田某某所为,已经辞退该人。字节跳动还将此事通报给了阳光诚信联盟、企业反舞弊联盟以及实习生所在的学校。
    有报道指出,字节跳动的 AI Lab 实习生权限和正职员工差异不大,这为此次事件提供了机会。经此一事,字节后续会加强权限隔离和共用代码的审计。