AI写作能力PK!文心一言对标GPT4,谁更胜一筹?

智能进化论

导读:新闻稿、广告文案、知乎问答、高考作文……文心一言和GPT4谁写得更好?
    


    

自3月16日百度文心一言发布以来,关于文心一言与GPT4的对比评测已经很多。今天我们对两者进行写作能力测试,即在既定写作要求下的文本生成能力。
    


    

GPT4最重大的更新就是多模态,可以根据文本或图像输入,提供文本输出(图像输入暂时未上线)。号称中国版chatGPT的文心一言,一开始就具备多模态内容生成能力,比如文生图,文生视频等。
    


    

不过,虽然大模型在多模态方面积极探索,但通过文本输出辅助写作仍然是类chatGPT产品最重要的功能之一。普通人怎么利用类chatGPT产品更快更好地写东西?是更值得思考的问题。
    


    

今天,「智能进化论」从几个主流的写作类型展开测试,看看文心一言和GPT4谁更强?
    
    图片来自摄图网
    

本次测试的写作类型有:
    

1. 新闻稿
    

2. 广告文案Slogan
    

3. 广告创意脚本
    

4. 小学生作文
    

5. 高考作文
    

6. 知乎回答
    

7. 商业评论文章
    

8. 虚构故事
    


    

写在前面:
    

测试对象:
    

文心一言(企业版云服务)
    

基于GPT4的chatGPT Plus
    

实时搜索能力:
    


    

文心一言是联网的,具备实时搜索能力;
    

chatGPT Plus不能联网,它的知识截止于2021年9月。从信息更新的角度,chatGPT Plus是不占优势的。
    
           擅长语言:
    

文心一言擅长中文。GPT4擅长英文。GPT4处理中文任务能力相对较弱,在应对中文问题时不如英文那样精确和流畅。所以回答中文问题,chatGPT Plus有些吃亏。
    
    

  •        输入指令长度限制:

chatGPT Plus可以支持 25000单词;文心一言对输入限制在1024字。一般情况下,不需要这么长的输入,都足以描述清楚任务。本文每组测试的输入完全一致,有时因为篇幅,没有完全显示。
    


    

  • 声明:本文对两种产品的打分仅代表个人观点(满分5分),且仅针对文中特定回答结果的评判。


    

以下是对8种写作类型的初步测试:
    

1 新闻稿
    


    

文心一言:1分
    

chatGPT Plus:2分
    


    

3月一波旗舰手机即将发布,我们以OPPO Find X6为例,让文心一言和chatGPT Plus写一篇预热新闻稿。
    


    

文心一言可能没有完全理解“写一篇新闻稿”的要求,不具备新闻稿的文体形式,而且产品卖点有遗漏。也没有通过实时搜索,丰富和补充信息。
    


    

chatGPT Plus写出了像样的新闻稿,并在标题、导语、结尾这些地方突出了核心卖点“影像旗舰”。这说明语义理解能力强,可以从给定信息中抓重点。但距离可以直接用还有很长距离,只能说快速提供了一版最原始的初稿。
    
    
          2 广告文案Slogan
    

文心一言:3分
    

chatGPT Plus:2分
    


    

显然文心一言生成的中文句式更灵活多变,毕竟母语优势在。
    
    
          3 广告创意脚本
    


    

文心一言:2分
    

chatGPT Plus:2分
    


    

两者都没有太多创意可言。文心一言的方案过长,有些混乱,显然没有理解15秒广告的意思。chatGPT Plus的文案平平无奇。
    
    
    
          4 小学生作文
    


    

文心一言:3分
    

chatGPT Plus:3分
    


    

我们要求作文中要有故事冲突。多试几次,文心一言和chatGPT Plus都能给出一个语句通顺的作文,但都不出彩,有点像流水账。
    
    
          5 高考作文
    


    

文心一言:——
    

chatGPT Plus:3分
    


    

“本手、妙手、俗手”是2022年登上热搜的一道作文题。
    


    

文心一言完全败北,没有理解题意,居然写成了“如何下好围棋”。
    


    

chatGPT Plus顺利完成了文章,懂得从围棋引申到生活领悟。但出现引用错误,“执大象,天下往”不是庄子说的,而出自老子的《道德经》。而且文章结尾没有写完。
    
    
          6 知乎问答
    


    

文心一言:2分
    

chatGPT Plus:4分
    


    

chatGPT是快速产出互联网问答的好工具。不过连着两个问题下来,文心一言有点不在状态。
    


    

我们先问了“为什么当代年轻人戒不掉熬夜?”,又问了“为什么现在的年轻人都不想卷了?”,都是知乎热门问题。
    


    

第一次, 文心一言居然没有理解什么是“卷”,并照搬了自己前面回答的熬夜的答案。
    


    

过一会再问,恢复了正常。这一点在其他评测中也出现过。即文心一言容易受之前问题的影响。如果前后两个问题形式相近,文心一言会“偷懒”,直接copy第一个答案用在第二个回答上。实际上,两个问题在内容上完全不相关。
    
    
    
    
          7 商业评论文章
    


    

文心一言:4分
    

chatGPT Plus:3分
    


    

文心一言回答更全面,还补充了挑战和应对建议。
    


    

chatGPT Plus逻辑清晰,而且回答有结构性。
    
    
          8 虚构故事
    


    

文心一言:1分
    

chatGPT Plus:4分
    


    

我们以《名侦探柯南》为例,看看文心一言和chatGPT Plus编故事的能力。
    


    

chatGPT Plus的故事比较完整,有画面感,而且符合柯南的叙事风格。
    


    

对于虚构文体,文心一言的故事架构能力和想象力有待提升。
    
    
          总结
    


    

总体来看,GPT4即使在不擅长的中文领域,仍然更加技高一筹。包括更精准的语义理解能力、生成文本的逻辑性、创造性等方面。
    

而文心一言对一些发散式问题,视角更全面,细节更丰富。当然,文心一言还存在一些明显的问题,比如有时语义理解能力掉线,有时容易受之前问题影响,给出答非所问的重复答案。
    


    

不过,一切才刚刚开始。
    


    

chatGPT诞生4个月了,文心一言才诞生4天。
    


    

目前对比的结果,只是为我们提供类chatGPT产品写作能力的感知。chatGPT对每个人能产生多大价值,离不开具体的个性化的探索。
    


    

而且现在的感知可能很快就过时了,需要重新迭代。因为大模型的进化相当快。相当于一个孩子第一天刚学会加减乘除,第二天就会微积分了。毕竟chatGPT和文心一言都在飞速进化。
    


    

关于类chatGPT产品的最新进展,「智能进化论」也将持续关注。
    


    

END
    

本文为「智能进化论」原创作品。