ChatGPT 大火出圈的时候,人们就开始讨论,它会不会颠覆搜索引擎。毕竟,它可以为各种问题提供高质量的回答,「智能」到不可思议。直到最近,谷歌内部启动了「Red Code」,围绕 ChatGPT,全面调整了明年在 AI 领域的工作。
红色警报是部分硅谷巨头在公司核心业务面临重大挑战时,采用的一种内部响应机制。根据《纽约时报》,谷歌 CEO Sundar Pichai 组织了一系列会议商讨人工智能战略。谷歌内部包括研发、安全和信任等多个部门的团队被重新分配工作任务,辅助开发新的 AI 技术原型和产品。这样的变化会一直持续到今年 5 月的 Google I/O。
谷歌是全球搜索引擎市场的绝对霸主,全球市场份额超过 90%。有人吐槽谷歌对 ChatGPT 的反应太慢,已经火烧眉头才匆忙迎战。其实,谷歌对自然语言的技术储备从来没有落下,比如去年 I/O 大会上推出的对话系统 LaMDA 就是成果之一。但在当时,就像 AI 音箱没能替代搜索引擎,人们普遍也不认为对话机器人技术会在短期内创造出搜索引擎的替代品。
事实上,即使是 ChatGPT 这种新的问答技术,短期内也很难颠覆搜索引擎。但让谷歌紧张的问题是:当竞品搜索引擎开始引入新的技术,会给产品体验带来提升,这会在今天谷歌主导的搜索市场撕开一条裂缝。而作为谷歌搜索业务基石的广告模式,则可能成为谷歌引入相同技术的巨大绊脚石。
「这样的技术时机,为更多竞争创造了机会。」搜索引擎创业公司 Neeva 的创始人说。他表示,在 2021 年,他还很感到很沮丧,「因为很难摆脱谷歌的铁腕控制。」而如今,新的技术让他看到了借力、突破的契机。
想要理解 ChatGPT 到底为何会威胁搜索引擎,我们首先需要回归到搜索引擎的本质。
面对搜索框,输入关键词,这是人们习惯的方式。搜索引擎甚至让人们学会「带着一个问题,换不同的关键词」。但这并非搜索体验的终极形态,而是一种妥协。因为机器不能很好地理解人的问题,只能退而求其次,以关键词来索引不同的网页和信息。
谷歌搜索引擎部门副总裁 Pandu Nayak 在 3 年前解释搜索引擎的工作原理:「我们的工作就是找出你正在搜索的内容,并从网上提供有用的信息……虽然这些年来,我们一直在不断地提高语言理解能力,但是有时候我们仍然不能完全正确地理解它,特别是对于复杂的、或者对话性的查询。这就是为什么人们经常使用关键词的原因之一,他们输入一连串以为我们会理解的单词,而非自然地提出一个问题。」
彼时,谷歌刚刚把语言处理大模型 BERT 的最新技术融入搜索产品里。装配最新的语言理解能力后,机器刚刚学会正确理解像「美学家经常站着工作吗?」这样的描述,能够把句子里的 Stand 理解成「站立」这个动作,而不是和「stand along」这个意思混淆。
这个看似微小的进步背后,是自然语言处理的又一次突破。语言的最大特点之一是一维线性,而人类大脑在理解的时候,能够突破线性的结构,让语言成为表征复杂世界的工具。所以,人能够在遇到 Stand 这个词的时候,根据语境和经验将它处理成「站立」,或者是「独立」、「代表」等其它意思。
对于不具备人类肉身经验的机器,只能通过学习字符本身来理解语言。BERT 的创新之处在于充分挖掘上下文之间句子的含义,让机器学习每一个单词和其它所有单词的关系,更准确地理解语义。
仅仅两年过去,机器理解自然语言的能力就变得不可同日而语。ChatGPT 让人们体验了有史以来最好的对话机器人是什么样子。科技作者 Parmy Olson 翻出了自己的谷歌搜索记录,将最近的 18 个问题问了一下 ChatGPT,对比自己的体验,她认为其中 13 个问题上,ChatGPT 给出的答案更满足她的需求。比如,想知道「炼乳或者脱脂奶是否更适合做南瓜派」,ChatGPT 给出一段分析,就比搜索引擎给出的一堆菜单更好。
而在我自己的写作中,也尝试同时使用 ChatGPT 和搜索引擎来收集资料。比如最近在写一篇与蛋白质设计相关的文章,我就同时问搜索引擎和 ChatGPT,「什么是扩散模型?」「决定蛋白质结构的因素有哪些?」。搜索引擎给出的链接往往更加全面,但是 ChatGPT 组织信息的方式更加简练,能够帮助整合信息、梳理段落要点。
这一切都说明,让机器直接回答一个查询问题的可能性已经具备了。搜索引擎的体验提升的临界点已经呼之欲出,其中的关键就是生成式 AI。搜索引擎的未来,不仅仅是索引网页与链接,而是为每一个查询生成相应的摘要、回答。这便是「从搜索到生成」。
如今,来到了从技术到产品化的微妙时间点。根据《纽约时报》看到的一份备忘录,最近「Red Code」启动后一系列的调整和应对动作,被谷歌看作一场不伤害用户或社会的情况下部署其先进人工智能的努力。
一位来自谷歌的经理表示,谷歌必须进入这次前沿比赛,否则行业就可能不理睬谷歌,继续前进。他同时也表示,对于其它小公司而言,发布新型工具的担忧更少。
搜索引擎+ChatGPT 有着巨大的潜力,但想要看到成熟的产品还需要更多时间。
如果现在,你把 ChatGPT 当百科问答来用,很有可能会被骗进坑里——因为它擅长一本正经地胡说八道、假装自己「有知识」。一旦到了专业领域,这种胡说八道也只有专家才能分辨。Open AI 的 CEO Sam Altman 也表示:「我们正在试图阻止 ChatGPT 随机编造事实」。
这也是为什么,编程问答社区 Stack Overflow 很快就宣布:不接受 ChatGPT 生成的答案,官方表示:「主要问题在于,ChatGPT 产生的答案错误率很高,却看起来非常对」。
技术能够提供怎样的价值,往往在于如何将其封装进产品,对生成式 AI 也是如此。但正如谷歌经理所担忧的,一些创业公司在产品探索上更快一步。
Neeva 便是代表,公司的创始人 Sridhar Ramaswamy 曾在谷歌工作 15 年,离职前是广告高级副总裁。另一位联合创始人则是 YouTube 的商业化副总裁。和此前著名的 DuckDuckGo 一样,作为搜索引擎,它想通过不追踪隐私、不泄露个人信息来挑战谷歌。
「现代互联网已经变得严重依赖广告,一个重要的原因,就是大型科技公司自私地利用消费者的数据和隐私。」Ramaswamy 表示。他从谷歌离职,想改变用消费者数据赚钱的游戏,带领一个新团队,想用更合理的产品来吸引人们。成立于 2020 年的 Neeva 已经进行过两轮融资,获得了包括红杉资本、格雷洛克在内的 7700 万美元。
除了没有广告、不追踪个人数据,更先进的搜索引擎可以是什么样子?一个重要的方向是私人化,即能够为每个人的习惯和偏好定制。生成式技术无疑会带来重要的变化——为查询生成相匹配的内容。
微博 AI Lab 负责人张俊林长期从事 NLP 和推荐搜索相关的研究和工作,他认为,下一代搜索引擎的存在形式很可能是一个智能助手 APP。在技术上,则是上一代标签索引+新一代生成式技术的结合。
以 pagerank 为代表的算法,让谷歌成为了上一代搜索引擎领域的霸主。它以谷歌的创始人拉里・佩奇的姓氏命名,这套算法的核心思想是通过计算网页彼此之间的链接,来判断网页的相关性和重要性。
在未来的搜索引擎中,当你查询一个问题,类似 ChatGPT 这样的生成式技术,能够事先为你阅读相关网页,再生成答案。同时,为了确认答案来源的可靠性,传统搜索引擎的会在同时附上参考来源。就像你在阅读文章的时候可以随时查询注释一样。
Neeva 最新展示的产品功能,恰好在朝这个方向发展。Ramaswamy 看来,网站的互相连接可以显示出信息源的权威性。也因此,传统的搜索模式有很大价值。Neeva 想做的,是整合两个技术的优势来提供更好的产品。
Neeva 目前正在测试 NeevaAI,与 ChatGPT 的问答体验相似,当你输入一个问题之后,「展示一个综合的答案,总结自与查询相关的网站」。同时可以点击查看与之相关的网页来源,「参考文献和引文直接嵌入答案,使用户能够确定结果的真实性和可信度。」
这个新的功能会出现在接下来的新版 App 中,「这样你就不需要在无关的链接之间滑动筛选」。Ramaswamy 演示了几个 Demo,搜索 Taylor Swift,Neeva 会生成她的人物小传,并提供来源;你也可以问「摩洛哥在世界杯上怎么打败了葡萄牙」,Neeva AI 会为你生成小作文,来介绍那天晚上发生了什么。
而对于谷歌,想进化成先进产品形态,难点或许不在于技术,而是思考如何与已有的商业模式自洽。用 Ramaswamy 的话说,「谷歌是自身成功的受害者」。而另外一位搜索引擎的创业者则形容「谷歌有商业模式的议题」。
今天谷歌的广告建立在关键词+链接的搜索模式之上,当你在不同的链接之间跳转、阅读,也就给网页广告提供了展示空间;同时,用户的浏览记录成为了公司的数字石油,通过掌握用户的信息偏好,谷歌更精准地投放广告。
十多年来,这套广告的系统是谷歌主要的收入来源。2020 年,超过 80% 的收入来自线上广告业务,为谷歌贡献了 1470 亿美元的营收;2021 年,1480 亿美元的广告营收贡献了谷歌的 58% 的收入。
新型的搜索引擎,与原有的广告系统的模式存在相悖。如果生成式 AI 能够提供答案,这就意味着,用户会减少在链接间跳转、浏览的时间——也就是减少了广告投放的空间。「如果给你提供完美的答案,你就不需要点击广告了」。
另外一位前谷歌研究员玛格丽特・米切尔则表示,「谷歌搜索是相当保守的」,谷歌试图不破坏一个正常运转的体系。如果新的技术,会减少用户点击广告的可能性,这会不会影响谷歌如何使用它呢?
对于创业公司来说,情况正好相反。因为它们设计产品的初衷之一,就是不依靠点击广告来赚钱。在思考如何将新的技术嵌入产品的时候,也不必像谷歌那样,去思考如何与已经存在的商业系统自洽。Neeva 目前探索的是用户订阅付费,用户可以享受免费的版本,每月进行 50 次搜索;还可以每月付费 5.99 美元成为付费用户,不限次数、同时享受更多功能。
语言模型、生成式 AI 的进步,必然会重塑搜索引擎的模样。这也是包括谷歌在内的科技公司所期待的。「我们正处于一个真正的历史性时刻,NLP 的全部潜力已经达到了科幻小说的水平。」投资者、企业家和谷歌产品副总裁 Bradley Horowitz 说道。
而对于谷歌来说,不得不面对另外一个时代主题是:大公司利用数据建立的商业模式,正遭受着前所未有的严肃审视。谷歌面临漫长的反垄断审查的同时,一些公司正在尝试用新技术,进入搜索引擎这片市场。在数据合规、反垄断更加严格的欧洲,也是 DuckDuckGo、Neeva 这样的初创搜索引擎公司率先瞄准的市场。
「通用搜索引擎的故事已经结束了。」IDEA 研究院讲席科学家,认知计算与自然语言研究中心负责人张家兴表示。这也是谷歌已经打下的领地,以多年的技术积累,提供了最佳的通用实时索引产品。而在垂直搜索领域,如何为特定的公司、社区、领域提供更优内容搜索的探索才刚刚开始。但同时「大的商业模式创新,远远难于技术创新。」AIGC 这样的技术出现之后,人们感受到可能性和兴奋,但是会不会蕴含着打的商业模式创新呢?「整个业界都在探索」。
商业模式受最严监管、技术又成为了新变量,谷歌必须打起十二分精神规划未来。如果数据合规与隐私问题终有一天形成新规范,那时候,新搜索产品和随之而来的商业模式或许也会成为场上的新存在。那时候谷歌会是一个怎样的角色?他如今拥有的城邦是否会被侵蚀?这一切,等待技术和商业之间更深刻的碰撞与融合来回答。
&