证实！字节大模型训练遭北大实习生投毒

2024.10.22

    本周有消息称，北大某田姓研究生在字节实习期间，利用 huggingface 的漏洞给字节大模型注入了破坏代码，导致其训练成果不可靠，而重新训练带来的损失或超千万美元（8000 多张 GPU 显卡）。
    GitHub 上公开了田某某的录音，成为实锤证据。
    知情人士在 Gitbub 上称，“你（指田某）在长达 2 个月的时间里对集群代码进行恶意攻击，对公司近 30 位各级员工造成巨大伤害，让你的同事近一个季度的工作白费。所有的记录和审查都证明这是不容狡辩的事实！”
    此事在网上传的沸沸扬扬，字节昨日回应。
    回应要点有三：1.事情属实；2.该事未影响大模型商业化；3.“损失千万美元” 属严重夸大。
    据悉，事情原委是高校博士生田某今年 6 月在字节跳动 AI Lab 实习期间，因对团队资源分配不满，使用攻击代码破坏了团队的模型训练任务。田某于 2021 年 9 月起在该单位实习，所在团队刚在今年 4 月与北大王立威团队提出了 VAR 研究。
    字节跳动内部调查确认了是田某某所为，已经辞退该人。字节跳动还将此事通报给了阳光诚信联盟、企业反舞弊联盟以及实习生所在的学校。
    有报道指出，字节跳动的 AI Lab 实习生权限和正职员工差异不大，这为此次事件提供了机会。经此一事，字节后续会加强权限隔离和共用代码的审计。