嗯,我从「文心一言」发布会回来了
航通社不要完全相信截图。
文 / 书航 2023.3.16
从我家到百度科技园,我单程需要跨越 66 公里,花费 3 个小时。去现场参加发布会绝对不是第一时间领略「文心一言」魅力的最佳方案。
实际上,在现场可以看到的内容,和直播的内容基本一致。在现场能看到的也是录屏演示,没有额外「加餐」。
当我回到家安顿下来再打开电脑,已经有少量真实截图,以及一个简单的评测出来了。实际上,今晚开始确实有一批媒体会首先拿到邀请码,推出相对简单的评测。而未来几天,预计会有更多人拿到邀请码,相信也会有更深度的评测出现。
我观察到一个挺有意思的现象,有一两个微博上的娱乐营销号,在发布会刚结束,就发布了相信是来自「文心一言」的截图。另一些则是滥竽充数,比如我看到有个博主说是「文心一言」的截图,实际上来自另一款产品「写作猫」。
这提醒了一个之前我没有注意到的可能,就是对 AI 聊天画面造假。例如有一张 ChatGPT 的问答,展示了它可以正确识别「文心一言邀请码:KFCV50」这个段子的含义。然而我实际拿去测试了 GPT-3.5、GPT-4 和必应,结果是不论是否联网,图里的回答都不可复现。
从技术上,对网页截图造假非常容易,只要打开浏览器的 F12 开发者工具就可以修改相应段落,不需要 P 图。作为对应,「文心一言」的界面样式在发布会上已经公布,而其真实的界面截图都带有唯一的浮水印。
差评做的评测也许是第一个完整的「文心一言」评测,其中测试了发布会没提到的编程功能,以及以表格方式呈现结果。这说明「文心一言」的相关「涌现」能力其实已经展露,但因为算力差距摆在那里,不能预期它发挥跟 ChatGPT 一样稳定,出现不可控结果是完全有可能的。
在 ChatGPT 以及新必应搜索刚刚引起社会关注时,很多关于它「发疯」或出现滑稽结果的报道,一度让人怀疑它的实际能力。但当大家逐渐用上之后,有些担心自然而然地消失了。我觉得,一个对读者有意义的评测,或许不应该聚焦于如何让生成式 AI 突破禁锢或「发疯」,而是看它可不可以完成一些实际任务,可以真正作为生产力工具使用。
至少目前已经可以证明:这次发布的「文心一言」并不害怕真机评测。在发布会使用预录视频,或许只是想让发布会的流程更顺畅一些。
整场活动大多都是演讲,讲的内容或多或少之前都有线索可循。像我昨天预测的可能会用到百度自家的知识图谱,结果今天发现果然如此,官方说法叫「知识增强」。而所有的发言其实都围绕着一个目的,就是「预期管理」。
鉴于 OpenAI 的技术实力即使在硅谷范围里也是遥遥领先,没有任何理由要求「文心一言」刚发布就赶上乃至超越 ChatGPT。整场发布会的很多地方都希望大家能真实认识到这一点,正如我昨天所说:「跟 ChatGPT 比了不行是意料之中的,如果有地方胜出,那就是意外收获。」
另一个需要「管理」的预期,或许是「文心一言」的响应速度。预录视频可以说明两个问题:
「文心」大模型拆分 token(可以理解为不可拆分的最小生成单位)的方法可能和 GPT 不同。当你留心观察 ChatGPT 输出答案的动画时,可以发现它是一两个词这么往外「蹦」字,实际上代表了 token 在被消耗。而「文心一言」输出答案则是非常流畅地从头输出到尾,这可能因为它选择了获得全部回答之后才展现出来,也可能就是拆 token 的方法不一样,单个 token 意味着更长的字符串。
响应速度肯定是理想状态,实际使用可能会慢一些。现在「文心一言」就没几个人用,即使过几天估计也只是小范围测试,所以这段时间的响应都会很快。但不要忘记生成式 AI 时时刻刻都在消耗算力。今天下午,或许是因为进不去「一言」就转而测试「一格」的缘故,生成图片的工具「文心一格」排队速度比平时肉眼可见的减慢,似乎涌进了更多的用户。所以等轮到你用「文心一言」的时候,也有可能对百度的算力会提出一些挑战。不过,百度本身有云服务,而且曾经服务过春晚这种超大型并发,所以也或许到时候会优化得比现在好很多。
所以,随着发布会的进行,百度股价跌一点是完全在预期之中的,甚至可以说「小跌算涨」。发布会采用录播可能进一步把当天的股价压了点,但「文心一言」其实并不害怕就这样接受实测。所以稍给一点时间,股价就有涨回来的空间。
美股开盘后,百度 ADR 走势如下 ↓
最后,你问我能不能拿到邀请码也做个评测?
我哪知道啊
题图:使用「文心一言」作画时,它会让你精准给出 prompt,举的例子是「帮我画一枝晶莹剔透的牡丹花」。我用「文心一格」画了这个 prompt。