复旦NLP团队开源MOSS,此为国内首个公开亮相的类ChatGPT模型
复旦大学自然语言处理实验室邱锡鹏教授团队上线 MOSS 两个月后,把 MOSS 开源了。
目前开源的版本是 MOSS 003,二月份公开邀请内测的版本为 MOSS 002,一月份有一个内部测试版本叫做 OpenChat 001。
在 MOSS 003 中,复旦团队采用不同的技术路线,通过让Moss和人类以及其他对话模型都进行交互,显著提升了学习效率和研发效率,短时间内就高效完成了对话能力训练。
MOSS 成为国内首个公开亮相的类ChatGPT语言模型,也是国内首个搭载插件系统的开源对话语言模型, “端到端”走通了大语言模型的开发全程。
MOSS 的成长过程
复旦 NLP 团队成员孙天祥公布了 MOSS成长过程。
ChatGPT 问世后,国内 NLP 从业者受到冲击很大,当时没有 llama 也没有 alpaca,团队普遍认为国内技术距离 ChatGPT 有一到两年的技术差距。
要做 ChatGPT 有两个部分是很昂贵的,一个是数据标注,一个是预训练算力。团队没有算力,便去构造数据——从 OpenAI 的论文附录里扒了一些它们API收集到的user prompt,然后用类似Self-Instruct的思路扩展出大约 40 万对话数据。
一月份的时候,团队研制出了 OpenChat 001,虽然 OpenChat 001 不具备中文能力,不知道关于自己的信息(比如名字、能力等),且安全性较低,但此时模型已经具备了指令遵循能力、多轮能力、跨语言对齐能力,可以理解中文并用英文回答。
这给了团队很大的信心,于是加紧了 MOSS 002 的部署,增加到了116万条中英文对话数据。截至MOSS 002训练完成时,gpt-3.5-turbo、LLaMA、Alpaca均未出现,但却收到很多类似“MOSS是蒸馏ChatGPT” / “基于LLaMA微调”等质疑。
目前开源的最新版本 MOSS 003 的基座语言模型已经在 100B 中文 token 上进行了训练,总训练 token 数量达到 700B,还构造了约 30 万插件增强的对话数据,目前已包含搜索引擎、文生图、计算器、方程求解等。还给 MOSS 增加了I nner Thoughts 作为输出,即在 MOSS 决定调用 API 以及回复之前首先输出其“内心想法”。
研发团队称本次开源只是个开始,后续团队还将开源完整版 MOSS 003 微调数据、偏好数据、偏好模型以及经过偏好训练过的最终模型。
MOSS 发布时掀起惊涛骇浪
2 月份,国内各大厂纷纷开始拼大模型,但在国内赛道上首个拿出大模型的不是大厂,而是学界——复旦大学自然语言处理实验室邱锡鹏教授团队。
2 月 20 日晚,复旦大学自然语言处理实验室发布类 ChatGPT 模型 MOSS 的消息一经公开,很快就登顶了知乎热榜。由于瞬时访问压力过大,MOSS服务器还被网友挤崩溃了。
针对服务器崩溃一事,MOSS 官网发公告回应:“我们最初的想法只是想将 MOSS 进行内测,以便进一步优化,没有想到会引起这么大的关注,我们的计算资源不足以支持如此大的访问量,并且作为学术团队我们也没有相关的工程经验,给大家造成非常不好的体验和第一印象,在此向大家致以真诚的歉意。
团队称,MOSS 还是一个非常不成熟的模型,距离 ChatGPT 还有很长的路需要走。作为一个学术研究的实验室无法做出和 ChatGPT 能力相近的模型,MOSS 只是想在百亿规模参数上探索和验证 ChatGPT 的技术路线,并且实现各种对话能力。
MOSS 可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,将助力大语言模型的进一步探索和应用。
企查查 APP 显示,目前 MOSS 商标申请信息共 74 条,已有 32 枚商标被成功注册,申请人包括进出口、电子商务、高新技术等领域的多家公司及多个自然人,商标国际分类包括科学仪器、珠宝钟表、教育娱乐等,此外,目前仍有 3 枚 MOSS 商标正在注册申请中。
团队核心人物邱锡鹏
根据复旦大学计算机科学技术学院官网的介绍,邱锡鹏教授于复旦大学获得理学学士和博士学位。研究方向为自然语言处理、深度学习,发表CCF-A/B类论文70余篇。主持开发了开源自然语言处理工具FudanNLP、FastNLP,获得了学术界和产业界的广泛使用。
邱锡鹏的研究方向是,围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用,包括:自然语言表示学习、预训练模型、信息抽取、中文NLP、开源NLP系统、可信NLP技术、对话系统等。
邱锡鹏表示:“尽管MOSS还有很大改善空间,但它的问世证明了在开发类ChatGPT产品的路上,国内科研团队有能力克服技术上的重要挑战。”MOSS研发项目得到了上海人工智能实验室的有力支持。后期,这项工作将通过开源方式和业界社区分享。