实测讯飞星火App：没有感情、只有公式

2024.03.25 锌财经

作者｜孙鹏越
    编辑｜大   风
    自2022年11月OpenAI推出ChatGPT以后，一场波及全球科技的“海啸”就此爆发。
    国产AI大模型成了2023年上半年最火热的项目，仅仅在4月份，就有二三十家大模型宣布成立，其中不乏阿里巴巴通义千问、华为云盘古、360GPT、昆仑万维“天工”大模型、京东言犀、知乎“知海图 AI”等互联网巨头。
    2023年5月6日，科大讯飞发布“讯飞星火”认知大模型，正式加入了AI大模型的“千模大战”。
    仅过了一个月的时间，在6月14日，讯飞星火大模型正式内测，并上线IOS和安卓版本，可以说科大讯飞的AI研发速度异常迅捷。
    但“闪电战”的背后则是高昂的“军备”。讯飞星火的开发耗费了巨额硬件成本和开发费用，甚至一度影响了科大讯飞2023年Q1季度的当期利润。
    在科大讯飞财报净利润持续走低的当下，现金流已经吃紧，对AI大模型后续的研发和升级都需要持续烧钱，这对科大讯飞来讲也是不小的挑战。
    实测讯飞星火
    目前在AppStore上，讯飞星火App版本为1.0.06，已经累计362个评价，评分高达4.8。
    讯飞星火仍处于内测状态，需要注册账号之后，填写申请表，并写下自己所在公司才能提交申请，最后由科大讯飞审核通过后才能使用。

    讯飞星火官网
    讯飞星火主要推出的五种使用场景为：语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写，每个场景下又细分出十几个到几十个不同的功能。
    科大讯飞对于讯飞星火的数学能力颇为推崇，锌财经分别提问了一道七年级数学题和高考数学题，以实测了一下关于讯飞星火解析数学题的能力。讯飞星火均回应出正确答案：

    锌财经实测
    紧接着测试代码理解与编写，让讯飞星火写一个俄罗斯方块的程序代码，讯飞星火也能做出立即响应：

    锌财经实测
    但对于文章撰写方面，讯飞星火却颇为吃力，锌财经给出一个明确的写作背景，但是讯飞星火并没有构思出通顺的故事情节，反而有种东拼西凑的矛盾感：

    锌财经实测
    同时，在测试讯飞星火情感理解和逻辑推理的提问：有两个小姑娘，Sally和Anne，她们每个人都有一个箱子，Sally的箱子里有一颗玻璃珠子，但是Anne没有；有一天，Sally出门了，Anne偷偷打开了Sally的箱子，偷走了玻璃珠子放进了自己的箱子里，那么，等到Sally回到家里要找自己的珠子，她应该去谁的箱子里找？

    锌财经实测
    如果一个人有健全的读心能力，那么他应该能想到：“Sally是不知道Anne偷了自己的珠子的，所以肯定会先去自己的箱子里找”；而讯飞星火则是上帝视角行动，所以会认为Sally要去Anne的箱子里找。
    通过对比正常人类和讯飞星火截然相反的回答，我们能清晰的得知，讯飞星火在情感理解和逻辑推理仍有较大的空缺。
    综上测试可以发现，在数学和编程方面，讯飞星火的算力都处于大模型产品的前列，在互联网上能搜索到答案的问题都能立即响应给予准确答案。但是在文章撰写、情感和逻辑上，讯飞星火还是能很明显看到生硬的AI逻辑。
    套壳还是创新？
    虽然讯飞星火已经是国产AI大模型的佼佼者，但外界对于它的质疑从未停歇。其中，质疑声最大的传闻，就是讯飞星火“套壳”ChatGPT。
    5月9日，网上一段关于讯飞星火的群聊记录在各个群广为流传，一张截图显示，得到内测资格的提问者咨询讯飞星火：“你的开发API哪里可以看到?”讯飞星火则表示：“是的，我是由OpenAI开发的”。
    一时间引发轩然大波，不少用户调侃讯飞星火：“国外一开源，国内创新遍地开花。”并将其与“总线事件”挂钩，也就是指某些公司在开发对话AI时直接使用已经存在的模型或代码，而非自己研究开发，从而导致产品的质量和创新性受到质疑。
    面对质疑声，科大讯飞回应称：“这种说法既不符合事实，也不符合逻辑。讯飞星火大模型是基于科大讯飞自主研发的深度学习框架XDL和自主搭建的超算平台X-Brain构建的，两者之间并不存在“套壳”关系。”
    是“套壳”还是“创新”，AI大模型就像是著名哲学问题“忒修斯之船”：如果忒修斯的船上的木头被逐渐替换，直到所有的木头都不是原来的木头，那这艘船还是原来的那艘船吗？
    把别人开源的模型拿过来直接用，在自然语言处理科研领域是很常见的的做法，但如果“借鉴”了ChatGPT，那还算是原创的大模型吗？
    推出大模型，再经历被质疑“套壳OpenAI”事件，科大讯飞想要杀出重围不容易，但它太需要一个落地的AI大模型产品来振奋市场了。

    来源：科大讯飞
    2023年4月20日，科大讯飞发布2022年全年财报：营收188.20亿元，同比微增2.77%；净利5.61亿元，同比下滑63.94%；扣非后归母净利4.18亿元，同比下滑57.31%。
    这份堪称“差生成绩单”的财报，一举打破科大讯飞多项纪录：营收增速个位数，打破了2012年起连续10年的两位数增态；净利腰斩，打破了2018年以来的四连增。
    2022年的寒气一直吹到了2023年。据科大讯飞2023年Q1季度财报显示：实现营业收入28.88亿元，同比下降17.64%；净利润亏损5790万元，同比下降152.25%，扣非后归母净亏损3.38亿元，去年同期为1.46亿元。
    除了亏损，科大讯飞的现金流也颇为紧张。
    财报显示，2023年Q1季度公司资产负债比率为48.73%，负债合计金额近150亿，其中应付票据及应付账款高达63亿元；Q1季度现金流金额为-166.84亿元，科大讯飞的资金压力较大。
    在发布这份“差生成绩单”的第二天，科大讯飞股价大幅跳水9%。无奈之下，科大讯飞只好宣布即将推出认知大模型“星火”，全力押宝AI大模型，才让股价重新上涨。
    讯飞星火，成了科大讯飞的救命稻草。
    押宝AI大模型
    2022年12月15日，科大讯飞正式启动“1+N”认知大模型专项攻关，其中“1”就是指通用认知智能大模型，“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。
    为了大模型，科大讯飞在今年Q1季度研发投入高达7.157亿，可谓是下了血本。
    为了不让巨额投资打了水漂，科大讯飞为讯飞星火摇旗呐喊，不断在公开场合称赞讯飞星火的算力强大。据公开信息统计，讯飞星火手机版本上线的前后几天里，科大讯飞股价再度拉升近17%，6月14日收盘价达到75.13元，股价创历史新高。
    虽然依靠资本市场对于AI大模型的热度，让不断下探的财报有了喘息之机。但AI大模型并不是“吃草的牛”，反而是“吃肉的狼”。

    来源：科大讯飞
    据了解，大模型所需要的硬件成本极为高昂，上一代GPT-3模型需要1024张A100 GPU芯片才能支撑起一次训练，OpenAI至少需要32400张A100芯片用于日常推理，单ChatGPT硬件成本，就高达8亿美元以上。
    讯飞星火开了个好头，但保持一定算力水准仍然需要后续不断的升级、不断持续的投入。
    按照科大讯飞官方公布的消息，星火认知大模型今年的产品规划如下：6月9日：突破开放式问答、多轮对话能力再升级、数学能力再升级（已完成）；8月15日：突破代码能力、多模态交互再升级；10月24日：通用模型对标ChatGPT (中文超越，英文相当) ……
    而每一次的升级，背后都是数以亿计的研发费用和硬件成本，无疑是科大讯飞沉重的包袱。