嫌弃ChatGPT数学太差,学而思曝自研数学大模型!


    ChatGPT数学太差了,数学AI还得看学而思!
    
    跟自带流量出道即巅峰的选秀新星一样,ChatGPT一诞生就被全世界追捧,被竞相效仿。谁都想借着这股东风,扶摇直上。各大科技公司闻风而动,陆续推出了相近的LLMs(大语言模型),一方面不愿甘居人后,错过风口;一方面博出位,以便推动他们各自的核心业务。逐渐地,各行各业都开始参与其中。
    现在轮到教育行业了!5月5日的消息,学而思正在进行自研数学大模型的开发工作,他们把这个数学大模型叫做MathGPT。MathGPT主攻数学领域的解题和讲题算法,主要面向全球数学爱好者和科研机构。
    据学而思透露,MathGPT为公司核心项目,由CTO田密负责。今年春节前,已启动相应的团队建设、数据、算力准备和技术研发,目前已取得阶段性成果。此外,还将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。
    类ChatGPT们数学太差,学而思只好出手
    像雨后春笋般涌现的大语言模型,在语言翻译、摘要、理解和生成等任务上都有了接近“人”的水平,甚至有些地方比人的水平更高。
    但是,唯独在数学这块上,无论是强如GPT—4、Bingchat,还是更年轻的文心一言、天工、式说3.0,或者是基于LLaMA开源而来的各类LLMs都表现得像智力“未开化”一样。简单的数学问题能答,稍微复杂一点就会自己把自己绕晕。有些题能做出正确答案,但是解题过程让人看得一头雾水。
    
    更别说什么几何代数、线性代数了,难为AI嘛这不是!用学而思的话来说,“通用语言模型更像一个‘文科生’”。
    “这种不足是由LLM的自身特点决定的。”学而思AI团队负责人介绍,LLM来自对海量语言文本的训练,因此最擅长语言处理。行业内偏向基于LLM大模型做阅读、写作类应用,但如果想要在数学能力上有突破,就需要研发新的大模型。
    学而思希望通过MathGPT弥补和攻克大语言模型的三个问题:第一,题目要解对,现在GPT结果经常出现错误;第二,解题步骤要稳定、清晰,现在GPT的解题步骤每次都不一样,而且生成内容经常很冗余;第三,解题要讲的有趣、个性化,现在GPT的解释过于“学术”和机械,对孩子的学习体验很不友好。
    谋而后动。学而思能有这样的底气,一方面因为他们“靠数学起家”,另一方面由于他们在AI领域布局良久。早在2017年,学而思便成立了AI lab 人工智能实验室。到目前为止,学而思已有20年的数学教学经验,积累了庞大的数学相关数据,用来训练数学模型水到渠成。
    大势所趋,教育行业拥抱AI
    近日,美国在线教育龙头Chegg股价几近“腰斩”,暴跌50%!只是因为该公司CEO在不久前的财报电话会议上承认,“ChatGPT正开始从在线学习平台Chegg手中夺取市场份额”。据统计,今年3月以来,学生对ChatGPT的兴趣大增,对Chegg的产品兴趣则减少。
    而就在今年3月,Chegg宣布推出自己的人工智能聊天机器人CheggMate,由OpenAI最新、最先进的人工智能模型GPT-4支持。CheggMate可以随时随地回答学生的问题,且能保证准确性;还能针对不同的学生提供相应的测试。此外,CheggMate还可以跟学生交互,学生可以不断追问,它会给出相应的解释。
    
    除了Chegg,同为教育领域的美国在线教育公司多邻国(Duolingo)、可汗学院、Speak在此之前已经宣布接入OpenAI GPT—4,用以提升用户体验和提高教学工作效率以及学习效果。
    2月份的时候,网易有道开始了AIGC(AI Generated Content人工智能自动生成内容)在教育场景的落地研发工作。在学而思宣布MathGPT的同一天,网易有道也公布了基于“子曰”大模型开发的AI口语老师相关视频。据介绍,“子曰”为该网易有道自研的教育场景下的类ChatGPT模型,基于其研发的AI口语老师不同于以往机械发音的AI,其发音更像一个真实的老师。
    在今天举行的讯飞星火认知大模型成果发布会上,科大讯飞正式宣布推出“讯飞星火认知大模型”。科大讯飞董事长刘庆峰表示,星火认知大模型在多题型可解析数学能力上已领先ChatGPT。同时,推出首款搭载星火大模型的AI学习机T20pro。
    
    还有铅笔、金太阳、高途等教育相关企业投入AI研发和运用。
    相比较之下,学而思选择的道路和其他人有所不同,不基于现有LLM做微调和接口调用、不做通用LLM,而是自研基于专业领域的“数学大模型”MathGPT。而MathGPT较之其他的路径孰优孰劣,还是要看落地后的实际应用。
    教育行业基于AI,开始了新一轮的改变和进化。教育行为中人和AI的关系也进入到了一个全新的阶段,AI能不能最终满足教育行业的殷切期盼,还有待时间验证。