上万照片秒搜？百度网盘搞了个AI高级图搜功能

2024.09.29

    压箱底的照片都给你搜出来，何尝不是一个“噩耗”。
    国内大模型，从年初开始卷现在，都开始追求赋能应用了。百度李彦宏在公开场合不止一次提到，要把百度的产品用AI“从头到尾重做一遍”。
    但谁能想到，百度系率先把AI玩出花来的竟然是百度网盘。

    就在最近，为了让你更容易找到你想要的照片、视频，百度网盘费尽心机上线了一个名叫“高级图片搜索”的功能，官方号称上万照片能够秒搜索，秒响应。各路网友纷纷表示好奇。
    “高级图片搜索”，能有多高级？
    百度网盘其实一直都有图片搜索的功能，但是和一众搜图功能一样，一旦你关键词输的不对，网盘就开始“犯傻”，提示没找到结果。
    现在推出的这套“高级图搜”功能，据说是在原有搜图功能上基于AI延伸而来的。
    官方介绍，百度网盘现在能够通过基于向量的语义搜索，理解涵盖时间、地点、人物、事件等多个要素的组合搜索语句，从而提供更准确、更全面的搜索结果。这项功能能够帮助用户快速找到上万张照片和视频。

    目前大部分用户都可以体验这个功能。先在网盘搜索“高级图片搜索”，点击结果进入介绍页面，在最底部点击“立即体验”并坐等数据升级完成，即可体验新功能了。
    其实不光是图片，这个功能也可以搜索视频。输入的词汇可以是单个词，也可以是一句话。而且随着描述的细节越多，搜索结果也可以实时调整。
    这个功能，可能百度的产品团队预想的是让人们来搜索一些值得怀念的照片。但实际上，热衷于“挖坟”的当代人全都在用它找“表情包”。更有的，是找朋友、同事的“黑历史”。
    一个正经功能，再次被多才多艺的人类玩坏了。所以说，AI不学坏是没办法打败人类的。
    AI图搜背后的大模型
    据了解，此次上线的高级图搜功能的背后，是百度的文心大模型。目前大多数图片搜索依赖的都是“标签功能”，但实际上“标签”没办法将文字和图片精准得联系起来，所以在搜索时经常遇到“搜了个寂寞”。
    为了解决这一问题，百度网盘的团队选用了百度文心的多模态大模型VIMER－ViLP，并用海量图片和文本数据对它进行了训练，来实现“基于向量的语义搜索”。
    而所谓的“基于向量的语义搜索”，指的是网盘中的所有照片会被编码为一组特征向量。在搜索时，你输入的文本信息也会被转换为一组特征向量。
    而图片向量和文本向量之间的距离越近，图片和文本的相似度就越高，该图片就越可能是你想找的那张。

    在这种机制下，你不用绞尽脑汁去想什么“标签”。想输什么就输什么，反正也会被转化成文本向量。这样一来，才会有更准确的搜索结果。
    但是“标签”也不是毫无用处。面对时间和地点这种信息，大模型也无法理解，还需要“标签”来补充。开发团队利用AI，将文本信息和照片的数据信息进行对比，结合上面的向量分析形成组合搜索，才让这个功能真正实现。
    光搜得准没用，还得搜得快。为了提高搜索速度，百度网盘还采用了异构算力调度系统，充分利用云上算力，降低了本地索引占用空间的同时，提供了更精确的查找能力。

    此外，百度网盘还支持OCR识图和以图搜图功能，能够自动关联百度百科信息和全网信息。
    百度网盘身上的AI“大杂烩”
    其实这个“高级图搜”功能，不是度盘上线的第一个AI功能了。
    5月份，在万象百度移动生态大会上，百度网盘宣布推出基于文心大模型的“云一朵”智能助理。然后5月27日，百度网盘宣布“云一朵”智能助理开启内测。
    据百度的介绍，“云一朵”可通过自然对话帮助用户在海量信息中快速查找信息。只要有了“云一朵”，找图、摘要、翻译等能力，都是一句话的事儿。

    可以看出来，百度推出文心大模型之后，真的打算把所有产品用大模型重新“改造”一遍。而百度网盘作为百度用户最多的产品之一，自然是改造的第一梯队。
    但是人们可能更关心的是，这样一来自己存在网盘里的那些“秘密”不是更容易被发现了吗？还有，你这些功能这么厉害，是不是代表网盘会员要涨价？！
    不愧是你啊，百度！