嗯，我从「文心一言」发布会回来了

2024.03.30 航通社

不要完全相信截图。

文 / 书航 2023.3.16

从我家到百度科技园，我单程需要跨越 66 公里，花费 3 个小时。去现场参加发布会绝对不是第一时间领略「文心一言」魅力的最佳方案。

实际上，在现场可以看到的内容，和直播的内容基本一致。在现场能看到的也是录屏演示，没有额外「加餐」。

当我回到家安顿下来再打开电脑，已经有少量真实截图，以及一个简单的评测出来了。实际上，今晚开始确实有一批媒体会首先拿到邀请码，推出相对简单的评测。而未来几天，预计会有更多人拿到邀请码，相信也会有更深度的评测出现。

我观察到一个挺有意思的现象，有一两个微博上的娱乐营销号，在发布会刚结束，就发布了相信是来自「文心一言」的截图。另一些则是滥竽充数，比如我看到有个博主说是「文心一言」的截图，实际上来自另一款产品「写作猫」。

这提醒了一个之前我没有注意到的可能，就是对 AI 聊天画面造假。例如有一张 ChatGPT 的问答，展示了它可以正确识别「文心一言邀请码：KFCV50」这个段子的含义。然而我实际拿去测试了 GPT-3.5、GPT-4 和必应，结果是不论是否联网，图里的回答都不可复现。

从技术上，对网页截图造假非常容易，只要打开浏览器的 F12 开发者工具就可以修改相应段落，不需要 P 图。作为对应，「文心一言」的界面样式在发布会上已经公布，而其真实的界面截图都带有唯一的浮水印。

差评做的评测也许是第一个完整的「文心一言」评测，其中测试了发布会没提到的编程功能，以及以表格方式呈现结果。这说明「文心一言」的相关「涌现」能力其实已经展露，但因为算力差距摆在那里，不能预期它发挥跟 ChatGPT 一样稳定，出现不可控结果是完全有可能的。

在 ChatGPT 以及新必应搜索刚刚引起社会关注时，很多关于它「发疯」或出现滑稽结果的报道，一度让人怀疑它的实际能力。但当大家逐渐用上之后，有些担心自然而然地消失了。我觉得，一个对读者有意义的评测，或许不应该聚焦于如何让生成式 AI 突破禁锢或「发疯」，而是看它可不可以完成一些实际任务，可以真正作为生产力工具使用。

至少目前已经可以证明：这次发布的「文心一言」并不害怕真机评测。在发布会使用预录视频，或许只是想让发布会的流程更顺畅一些。

整场活动大多都是演讲，讲的内容或多或少之前都有线索可循。像我昨天预测的可能会用到百度自家的知识图谱，结果今天发现果然如此，官方说法叫「知识增强」。而所有的发言其实都围绕着一个目的，就是「预期管理」。

鉴于 OpenAI 的技术实力即使在硅谷范围里也是遥遥领先，没有任何理由要求「文心一言」刚发布就赶上乃至超越 ChatGPT。整场发布会的很多地方都希望大家能真实认识到这一点，正如我昨天所说：「跟 ChatGPT 比了不行是意料之中的，如果有地方胜出，那就是意外收获。」

另一个需要「管理」的预期，或许是「文心一言」的响应速度。预录视频可以说明两个问题：

「文心」大模型拆分 token（可以理解为不可拆分的最小生成单位）的方法可能和 GPT 不同。当你留心观察 ChatGPT 输出答案的动画时，可以发现它是一两个词这么往外「蹦」字，实际上代表了 token 在被消耗。而「文心一言」输出答案则是非常流畅地从头输出到尾，这可能因为它选择了获得全部回答之后才展现出来，也可能就是拆 token 的方法不一样，单个 token 意味着更长的字符串。

响应速度肯定是理想状态，实际使用可能会慢一些。现在「文心一言」就没几个人用，即使过几天估计也只是小范围测试，所以这段时间的响应都会很快。但不要忘记生成式 AI 时时刻刻都在消耗算力。今天下午，或许是因为进不去「一言」就转而测试「一格」的缘故，生成图片的工具「文心一格」排队速度比平时肉眼可见的减慢，似乎涌进了更多的用户。所以等轮到你用「文心一言」的时候，也有可能对百度的算力会提出一些挑战。不过，百度本身有云服务，而且曾经服务过春晚这种超大型并发，所以也或许到时候会优化得比现在好很多。

所以，随着发布会的进行，百度股价跌一点是完全在预期之中的，甚至可以说「小跌算涨」。发布会采用录播可能进一步把当天的股价压了点，但「文心一言」其实并不害怕就这样接受实测。所以稍给一点时间，股价就有涨回来的空间。

美股开盘后，百度 ADR 走势如下 ↓

最后，你问我能不能拿到邀请码也做个评测？

我哪知道啊

题图：使用「文心一言」作画时，它会让你精准给出 prompt，举的例子是「帮我画一枝晶莹剔透的牡丹花」。我用「文心一格」画了这个 prompt。