百度文心一言体验:不够完美,但在ChatGPT面前已展现威力

雷科技

百度正式公布文心一言,能否与ChatGPT一争高下?
    在等待了一个多月后,百度的文心一言终于正式发布,只是对于百度来说整个发布会过程多少有点“煎熬”,现场没有进行实机测试,而是用一段视频来展示文心一言的功能。
    百度似乎对文心一言的表现有些忐忑,甚至从李彦宏的演讲过程来看,这位中国互联网的传奇人物,竟然有点紧张。对于百度来说,文心一言的重要性不言而喻,甚至有人将其看做是中国互联网对抗ChatGPT的唯一希望,而在过去的一个月里,已经有众多企业宣布与文心一言合作,进军未来的人工智能行业。
    气氛烘托到这个程度,文心一言的具体表现将会直接影响投资者以及用户对百度的信心。
    
    图源:文心一言发布会
    果不其然,从发布会上用视频代替实机演示的时间点开始,百度的股价就开始暴跌,仅10分钟的跌幅就达到10%,240亿元的市值就此蒸发,换算一下,每过一秒百度就损失四千万元市值。
    不过,就像过去很多大企业在发布新品时的遭遇一样,百度的股价同样坐上了“过山车”,16日暴跌,17号暴涨,百度的股价甚至高于16号的最高值。
    百度的市值忽起忽落,不知道李彦宏的心情是否也一样跟着上下颠簸。不过,至少在发布会现场,李彦宏也承认,现如今的文心一言还有很多不完美的地方,但是未来将会变得更好,用一句网友熟悉的话来形容:未来可期。
    文心一言的表现到底如何?
    文心一言,会画画?
    在正式发布前,百度就已经对外宣传文心一言除了可以提供类似于ChatGPT的对话问答功能外,还支持生成图片、视频等功能。不过在测试中,内测版的文心一言似乎并不能提供视频生成功能,而是直接生成了一段文字。
    
    虽然答非所问,但是从文字描述来看,对应的视频画面倒也是符合我的要求。
    对此,李彦宏其实也给出了解释,视频功能未上线主要是因为对资源的消耗过大,考虑到整体用户体验所以在内测版中没有推出。
    视频功能不行,那么绘画呢?
    我尝试用不同的描述来让文心一言生成不同的照片和画作,不得不说结果确实出乎我的预料。
    这是生成的第一张照片,草原、太阳,基本上符合我的要求,只是太阳似乎少了一个。
    
    以毕加索的风格生成一幅油画呢?
    
    我想文心一言恐怕对毕加索风格有“亿”点误解。
    试试梵高风格?
    
    居然比毕加索的好多了,文心一言难道是个梵高粉丝?
    再来看看日系风格。
    
    木屋里变成木屋外,远方还有个雨伞头怪人,虽然意境上是符合描述,但是BUG也不少。
    再来试试科幻风格的,比如机甲大战怪兽。
    
    看着挺不错的,但是怪兽呢?
    
    拿武器的男人、异形都没有,只有一片农田。
    在尝试用不停的话术来生成照片后,可以看出文心一言的绘画功能处于一个不稳定的状态,即使是类似的描述,也有可能因为描述内容而出现差别极大的结果,可以是大致符合的,也可以是背道而驰的。
    至少从测试结果来看,虽然文心一言的绘画照片生成速度和质量都很不错,但是在对用户语义和内容的理解上,显然是存在一定的问题,后续还有着很大的优化空间。
    对话文心一言
    对比绘画功能,对话式问答或许才是大多数人需要的功能,百度或许是把更多的精力用在对话功能的优化上了?那么就让我们看看,文心一言在对话式问答上的表现如何。
    我首先尝试着让文心一言评价一下2023年的春节档电影《流浪地球2》。
    
    单看评价内容确实可圈可点,但是注意看第一行回复,“该片于2020年春节期间上映”,《流浪地球》是2019年的春节档电影,《流浪地球2》则是2023年的春节档,不管是1还是2显然都与2020年搭不上边,逻辑上的错误使得这个回复的评分大打折扣。
    如果我们指出回答的错误会怎样呢?
    
    得,直接变成未上映了。
    换一种方式提问会怎样?
    
    我们得到了一个前后矛盾的回答。
    实话说,就现在的表现来看,文心一言即使在常识性的问答上都有不少的错误,甚至会在一个回答中给出完全相反的观点。
    特别是涉及到具体时间的问题回答上,文心一言似乎有严重的BUG。
    再来试试脑筋急转弯。
    
    回答不出所料。
    有意思的是,在我指出回答中存在的问题后,文心一言居然圆回来了。
    
    脑筋急转弯还是有点难度过高,让我们试试普通的提问。
    
    终于回答正确了,不容易啊。
    再来测试一下其他应用场景。
    
    咋看之下,这个回答是没有问题的,只不过,若是懂行的人看到这份回答, 恐怕会忍不住笑出声。比如,锐龙9 6900HX确实是一颗高性能处理器,而RX 5800XM则是一个不存在的产品,即使有也是AMD的显卡产品而非处理器。
    再来看显卡推荐,RTX 2060是正确的,但是Intel iGPU就多少让人摸不着头脑了,Intel自己估计都不知道还有这样的东西,下面的内存、硬盘两项回答上同样有不少问题。
    让我们换个领域试试。
    
    看来在生活领域的问答中,文心一言的准确度要高很多。
    换个方式问,同样回答正确。
    
    再来上点难度。
    
    虽然去两遍长城有点让人摸不着头脑,但是从计划来看,并没有太大的问题,完全是一个可实现的简略旅游计划。
    那么能否生成一个详细一点的旅游计划呢?
    
    可以说,如果你想来一趟短暂的广州旅行,但是却不知道去哪里,按照这份攻略来走基本上不会出错,文心一言在生活问答方面的表现远远超出了我的预料。
    虽然在涉及到文艺作品、数码等领域的问答存在许多问题,但是在使用率最高的生活问答中,文心一言的表现已然合格,结合手机端的APP定位和用户人像,可以提供更准确、详细的建议。
    至少在旅游娱乐方面,文心一言已经展示出很大的潜力。
    文心一言,可以成为生产力工具吗?
    在此之前,我们聊到ChatGPT,除了惊叹于强大的对话式问答功能,其在生产力方面的表现也让许多人产生了危机感,甚至有声音认为,ChatGPT将会取代许多工作,导致失业危机。
    那么,文心一言作为同类型的人工智能产品,在生产力方面的表现又如何呢?
    首先来一篇简单的广州风土人情介绍文章。
    
    额,好像被我玩坏了。
    
    在删去字数要求后,文心一言给出了正常的回答。
    换个条件再试试。
    
    还是正常的。
    让我们继续测试。
    
    额,看样子“500字”似乎是文心一言的死穴,随后我对500字进行了一些微调,但是给出的回答都是正常的,恐怕这里存在一个未知的BUG,有待后续百度的工程师进行修复。
    抛开意外触发的BUG不谈,文心一言确实可以生成简单的文案,可以为使用者提供一个基本的内容框架,只需要进行内容填充就可以成为一篇简单直白的介绍文。当然要求不高的话,直接复制粘贴使用也是可以的,在生产力方面,文心一言的表现并不如生活领域的表现突出,甚至可以说有些稀疏平常。
    
    图源:文心一言发布会
    不过,考虑到目前文心一言还是初始内测版本,后续的优化空间还是很大的。综合体验下来,文心一言给我的感受既有惊喜也有“惊吓”,虽然在一些专业性质较强的领域上,文心一言有着不少的问题,但是在一些重点优化的领域,如生活娱乐,可以看到文心一言的回答已经有了不错的表现。
    在生活娱乐领域表现出来的潜力,或许就是百度在发布文心一言后,第二天股价暴涨的原因,虽然在生产力等方面的表现不如人意,但是却已经表现出了惊人的潜力。
    对于文心一言的未来,个人是十分看好的。
    


        来源:雷科技