字节跳动 | 技术创新:推荐引擎打败搜索引擎

字节跳动 | 技术创新:推荐引擎打败搜索引擎

00:00
12:25

各位朋友大家好,欢迎来到今天的《长江商学院经典商业案例100 讲 》。上节课我们学习了字节跳动自移动互联网发展以来抓住的各个关键时期,做的一系列决策。也正是因为这些重要的决策,才让它在用户层面打下了牢固的基础。


为什么我们常常从今日头条开始研究字节跳动呢,那是因为今日头条是字节跳动立业的根基,关于它强大的算法技术和推荐引擎,是我们没办法忽视的内容。


前面讲到的,早期的今日头条与传统媒体相比存在的劣势,在于生产和传播优质内容;但在“获取信息”的方法上,今日头条下了足够多的工夫,从而脱颖而出,甚至奠定了字节跳动整个产品线的基调。


那么今天我们就来探讨今日头条是如何进行技术创新和算法精进的。


我们先来看看推荐系统的运作原理。


一个推荐系统是由很多个模型构成,无论模型多大多小多么复杂,都可以拆解为从数据”到“学习”,再到“决策”的过程。


假设“性别”是个性化推荐中的关键选项,不同性别的用户在物品偏好上有较大的不同。那么对于很多平台来说,预测性别是个必须的工作。


在这种情况下,第一个“数据”环节,就是首先挑选跟用户性别有关数据,例如获取头像,昵称,手机型号,用户 APP 安装列表和点击记录等。然后将用户数据中这些字段和已知性别的数据挑选出来。接着开始第二个“学习”环节。挑选一个模型进行学习拟合,在此情景中,将“学习”环节获取的数据与“性别”这一相应数值组吻合。一般选择逻辑回归模型,或者决策树类的模型进行拟合。最后就是“预测”环节。用已经学好的模型对未知性别的用户进行预测。


虽然说以上这些动作,通过公司内部的运营人员就可以完成。但移动互联网时代,普遍使用的手机屏幕较小,单屏可曝光的内容也少了很多。特别是在流量越来越难获取的当下,平台的主动推荐单纯靠运营人员编辑,局限性就比较明显。


运营人员大多会推荐普遍关注的信息,导致其它信息得不到足够曝光,也就会存在推荐不精准而导致的流量浪费。再者,因为推荐数目有限,内容不能无限下拉,用户看完即走,无法留存。


这就需要引进推荐系统。推荐系统一般遵循从“召回”到“初排”,再到“精排”这样一个流程。这一流程对应的步骤分别是,首先从百万以上内容池中快速初筛出候选集,然后根据点击率预估给候选集初步排序,最后根据需要调整排序。


召回的目的是将最有可能被点击的信息初步筛选出来,也有些互联网公司将这个过程叫做“匹配”。推荐系统一般有多个召回算法或者召回规则,这叫做“多路召回”。比如:基于用户画像标签召回,基于地理位置信息召回,基于物品协同过滤召回,基于热门商品召回等等。


召回过程完成后,得到的候选集就被输入排序模型进行排序。模型将预测每条信息被用户点击的概率,并且按照点击概率从高到低进行排序。初排后,一般会产生几十个推荐结果给到下一步。


精排就是对初排的结果进行额外的筛查,降权或升权处理的过程。


除了以上的内容,推荐系统还需要策略产品经理设定一些“专家规则”。“专家规则”就是在算法还没有学习到某方面知识的时候,用这些规则告诉机器如何处理一些问题。精排就是需要使用规则的场景之一。


这些规则是为了对推荐结果进行调整,保持每次推荐的多样性。常见的规则可以是出于商业目的,对一些信息进行流量扶持,将推荐结果中该类信息排到前面;也可以对有违规风险,或者已经下架的信息进行过滤精排。最终产生8-10 个结果直接推荐给用户。这就是整个推荐的过程。


说完推荐系统的作用原理,我们再来理解资讯推荐系统。资讯推荐系统,本质上是要解决用户,环境和资讯的匹配。而今日头条刚诞生的早期,个性化推荐技术并不成熟。


因此2012 年底,今日头条产品上线不久,张一鸣叫上产品经理、研发团队开会,决定把个性化推荐引擎做好。张一鸣认为,“如果不解决个性化的问题,我们的产品只是做些微创新,也许能拿到一些移动互联网的红利,但不可能取得根本的突破,不能真正的创造价值。在任何时候,我们都要努力从根本上解决问题。”在这种判断下,技术出身的张一鸣在网上找资料,自己想象着写出了第一版推荐引擎。

 

2018 年 1 月,今日头条委托资深算法架构师曹欢欢博士发布了《今日头条算法原理》,详细介绍了今日头条经历四次大调整和修改后的推荐算法。今日头条推荐系统可以描述为拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量,分别是:内容、用户特征、环境特征。


第一个维度:内容。

今日头条是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑如何提取不同内容类型的特征以做好推荐。今日头条早期对外宣称“没有一个编辑”,但实际上,今日头条招募了大量内容运营人员做关键词标示、特征分析、运营策略优化、内容审核等基础工作。


第二个维度:用户特征。

用户特征包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻画出的隐式用户兴趣。在用户通过其他平台的社交账号登陆时,今日头条对用户数据进行动态挖掘和了解,勾画出用户兴趣图谱;在用户使用过程中,算法会根据用户的点击、搜索、订阅等行为优化用户画像。如果用户不登陆,头条会推荐一些大众化的内容,再根据用户点击来确定用户画像。

 

第三个维度:环境特征。

移动互联网时代,用户携带设备随时随地移动,在工作场合、通勤、旅游等不同的场景中,信息偏好会有所改变。


结合三个维度,模型会推测推荐内容在某一场景下对某一用户是否合适。今日头条提出“你关心的,才是头条”的口号,终极目标就是把内容和用户的个体需求高度匹配,通过推送,实现人与内容的精准传播和高效分发。


传统的推荐引擎主要是基于内容的相关性作推荐,而今日头条则是利用用户之间以及用户自身产生关联的一切信息线索,像社交、地理位置、场景、职业等,对用户彼此之间进行的关联性推荐。


依托于今日头条积累的流量基础和精准的算法模型,抖音拥有了先天的产品技术优势,在短时间内识别人们的需求,大批量地、精准地“投喂”热门内容,并根据反馈进行调整,保证用户持续看到最爱看的内容。


今日头条依靠技术优势和互联网产品方法论脱颖而出,也给传统媒体带来了巨大压力。今日头条利用机器和算法抓取内容的做法,也使得它屡次因为侵犯版权而被版权方起诉。


2013 年,新京报网、《广州日报》、《楚天都市报》等各类媒体因为今日头条在未经允许的情况下随意抓取原创内容,而要与其对簿公堂。而在2014年6月今日头条估值5亿美元的消息传出来后,传统媒体从业者纷纷感到震惊,甚至震怒:为什么?媒体普遍遭遇生存困境,一家新闻客户端竟然达到如此高估值?媒体从业者薪酬水平不高,而“拿走”他们劳动成果的人却成为创业新星?


口诛笔伐随之而来,《新京报》社论率先发难,新闻界意见领袖纷纷声讨,针对今日头条的版权诉讼此起彼伏。张一鸣对此也大呼吃惊,感受到两种观念的撞击:互联网创投界认为估值5亿美元是了不起的进展,媒体界却大为震惊。张一鸣坚信,5亿美元估值是由于今日头条是高效、创新的信息分发工具,而不是“节省”了版权费。2014 年,今日头条被国家版权局立案调查。


为了扭转这种局面,今日头条与传统媒体开展了广泛的版权合作,到2019 年已经和 1 万多家媒体达成合作关系。而在完善头条内容生态方面,最关键的一步便是推出形态与微信公众平台相似的头条号平台。


2015年,今日头条推出原创功能、“千人万元”补贴计划以及头条号创作空间;2016 年又推出内容领域的创投基金和孵化器服务,一方面对小型创作媒体团队提供孵化服务,另一方面引入创投基金保证优秀团队的快速发展。同时,今日头条的大数据分发系统又能保证将创作者的内容及时推送到用户面前。这一点,对于许多正在投身自媒体市场的内容创作者而言,有着微博、微信所不具备的吸引力。


事后回顾2014年的那场冲突,我们或许可以看得更明白:创新的商业模式不是一蹴而就的,而是快速迭代出来的,甚至是在与固有观念、固有利益群体的碰撞中逐渐完善的。以今日头条为代表的互联网产品作为信息渠道,与纸媒的信息生产、分发机制是完全不一样的,比如,从2020年初的武汉疫情,到2021年7月的郑州水灾,微信、微博、抖音等互联网信息渠道实时地传播着一线受灾者的信息,也促使救援者快速应对。这是传统纸媒、电视媒体完全无法做到的。


头条、抖音能在BAT 的夹缝中生存下来,说明兴趣引擎已经开始逐渐取代搜索引擎,成为新的底层技术架构。


在未来,搜索引擎与推荐引擎的融合也会成为信息分发平台的主流,这也是目前百度App、今日头条从不同擅长领域进取的方向。


那今天的课程就讲到这里,如果大家对推荐引擎与搜索引擎有其它看法也可以在评论区进行留言。


我们下节课再见。

以上内容来自专辑
用户评论
  • 余伍柒

  • 淡泊明志山上人

    不错

  • 浇汁烩面一碗

    大数据分发系统 兴趣引擎取代搜索