推荐系统概述(2):推荐系统的天时地利人和
共 3376字,需浏览 7分钟
·
2021-12-26 17:31
作者简介
作者:水哥【清华大学 信息与通信工程硕士】
原文:https://www.zhihu.com/people/shui-ge-99/
转载者:杨夕
推荐系统 百面百搭地址:
https://github.com/km1994/RES-Interview-Notes
NLP 百面百搭地址:
https://github.com/km1994/NLP-Interview-Notes
个人笔记:
https://github.com/km1994/nlp_paper_study
越来越远的上班路线,和越来越大的摸鱼需求,给推荐系统打了一针强心剂
完成一个最简单的推荐系统的方法就是每次请求都保证能出新的东西
当生产者是漂亮小姐姐且生产品是“好看”的时候,就已经auto win了。这样做赢得了无数生产者,赢得了更多消费者(lsp)
优质生产者的作用至少大于10086篇做CTR预估的paper
本讲的题目叫做“推荐系统的天时地利人和”,主要想要思考的是,为什么在近几年推荐系统忽然变得强大了起来。
以前的内容平台,编辑的分量是很重的。笔者上学的时候特别喜欢网易的一个专栏,叫“轻松一刻”。小编会结合时事,找各种沙雕图来玩梗。那时候谁上来看都是固定的顺序,固定的内容,如果你喜欢看汽车或者体育的内容,得切换到相关的标签下面看那里的内容。后来手机新浪开始尝试推荐,叫“猜你喜欢”,但是这部分所占的空间很少,而且需要滑到一定程度才能看见。现在再看,很难找到一些人为设定好的内容了,权威媒体的消息甚至需要通过搜索入口才能看到。这中间发生了什么呢?
我们可以发现有三个因素共同推进了推荐系统的繁荣:
天时:我们进入了一个移动互联网时代,获取信息变的特别方便,人们对信息的渴望急剧增大
地利:分布式计算突飞猛进,算法日新月异,相比于人为设定的方式,推荐系统确实带来了很大收益
人和:好的推荐系统上总有很多优质的生产者,优秀的生产者和消费者可以形成正反馈
天时
移动互联网时代,我们的“碎片时间”变得非常多,流量也变得很便宜。地铁上,公交上,很多时候都想刷一会儿手机。这个需求就构成了推荐系统大发展的一大动机:我总不能每次打开都是固定的内容,想看新的还要到处翻吧。那这时候有个东西能不停的把新鲜内容推给我,我就可以一直看下去。像现在很多公司都变相加长了上班时间,员工们很多时间其实都在摸鱼,到各种地方,什么厕所啊,楼下啊,花园啊去刷手机(之前在某个地方看到一个数据,流量最高峰的时候是晚饭后到睡觉前,接下来就是上班时间)。有这么大的对内容(摸鱼)的需求,推荐自然就非常重要了。
从这个角度我们可以对比一下论坛产品(比如贴吧,虎扑)和信息分发产品(互动的因素也有,但是会比较弱一点,主要还是把内容给你)。像贴吧这样的产品在以前没有推荐,你看到的内容得按照发帖时间或者回复时间排序,这样当你看完了第一面所有的内容,可能有别的事情。过一会儿又有一段闲时间,又想打开了,可是这时候上面的内容没怎么变,想要看新的,得自己手动翻到第二第三页。这个系统就给你设立了一个门槛,由于你每次都要自己翻,看的次数多了门槛越来越高,最后没有再翻下去的动力了。
而现代的推荐系统则不同,每次刷新都有新东西出现。用户这下就没有门槛了,一个简简单单上下滑,就能不停的出现新东西。这里我们可以插一下像现在短视频推荐系统一般都会把用户的使用时长当做一个主要的指标,一方面,它代表用户沉浸在平台上的程度,另一方面,它体现了平台可以变现的能力。后面这句话怎么理解呢?我们上一讲提到过,广告往往是按照展示来收费,如果用户的时长越长,我就能插进去更多的广告,这就是平台变现的方式。
所以,“每次刷新都出新的东西”和“过一会儿就想刷刷手机”,这两件事情完美的结合起来了。有的公司会在PR自己的时候说“我们推荐算法顶尖”,也许真的是,但是用户来这里不是因为他觉得你推的比别人的好,很大程度是有丰富的内容能让他一直看,或者有他想看的人。
地利
既然有这么大的需求,就需要有相应的技术来承载。过去的十年,不仅仅深度学习突飞猛进,机器学习,分布式计算的发展也十分迅猛。我们可以归纳一下,需要做到一个现在大型的推荐系统,需要哪些技术的支持呢?
当用户刷新时,迅速反应,新的视频在上滑的一瞬间就可以出现。首先需要依赖网络技术的发展,传输视频短时间内完成。如果是短视频公司,在音视频编解码这块需要很有研究。
短时间内必须获取用户的特征,并选出合适的视频。这是非常依赖分布式计算的。这次推荐中,哪些特征从同一批机器里面得到embedding都是很有讲究的。现在的推荐模型往往也有神经网络在其中,因此神经网络的并行化对推荐的提升也很大。另一方面,当你的候选视频很多的时候,如何科学存储,索引,也很体现技术(在讲粗排模型这一块,我们会讨论一下工程能力对于模型的影响是什么)。
生态形成和保护,这是专指内容理解技术。即使大公司会招聘很多很多审核人员,绝大多数审核也会由机器来完成。这需要CV技术来理解这个视频是不是合规,以及观感是否合适。在用户评论时,也需要对他们发表的言论进行判别。这一点稍微上点年纪的同学可能会有印象,在10年左右的时候,各大论坛基本是脏话满天飞的,非常难看。现在的平台很轻易就可以识别到用户的言论是不是脏话,这对于行成良好的生态也是不可或缺的。
个性化推荐。这个就是理所应当的了,算法越优质,推的就越准,越能满足用户的需求,对于整个平台的促进是很显著的。我们这个专栏主要面对的对象也是个性化的推荐算法(虽然现在还在一直聊别的)。
人和
“人和”的概念,指的是在有意无意间,很多人都会参与到推荐系统的生态里去,即是消费者,也是生产者。这件事情对平台的发展在前中期都有很大的帮助(特殊的是到了后期,用户和平台之间有可能会发生相互挤兑,这个可以留到后面再讲)。
有一本书叫《我看电商》,里面提到阿里巴巴早期为什么可以赢得过ebay,最后把国内的电商平台做起来了。里面主要讲的是阿里给中小商家提供了机会,帮助他们推广自己的产品。这是一个多赢的好事情:中小商家在线下的曝光往往是低效的,比如你是江浙的卖茶小妹,你在大街上去卖茶效率可能不高,因为这个产品在当地很多。但是如果你先人一步在网络上打出名气,别的地区的用户可能会很感兴趣,你的销路就变大了。这些中小商家也会帮平台打广告,吸引更多的商家进驻。
现在这个时代,有一个历史的行程叫做“自媒体”,简单来说就是普通大众都有一个发表见解,展现自我的机会。都说高手在民间,有些很优质的自媒体甚至有点养活一个平台的意思。抖音现在这么火,和我国千千万万好看的小姐姐是分不开的。这件事情其实非常精妙:其一,世界上不缺好看的小姐姐,这一点注定了生产者是不会缺的。其二,生产者的门槛不高,对于本来就好看的小姐姐来说,怎么拍都有人看。同时,软件也会自带很多美颜,你不够美也能把你变美。其三,这样的生产品永远不会过时,也永远不会让消费者讨厌。说实话有的视频内容像喊麦这样的,我个人很不喜欢,刷到之后就会想退出了。这种内容受众比较特定,所以其实需要在推荐的环节中做更多的工作。但是漂亮小姐姐的视频就不用,有谁不喜欢帅哥美女呢,反正放心推就行了,也不会犯错。
有一些失败的推荐系统,就是输在了生产者上。我见过的一个例子是依靠发金币来拉新,就是你看视频,或者看文章都能拿到金币,到一定程度就可以变现了。一开始金币无往不利,用户数蹭蹭往上涨,但是当这个活动一停下来,用户数就断崖式下跌。根本原因是什么呢?因为这里面的视频文章都是搬运的,我为什么非得在你这儿看呢?
微博也是一个例子,做算法的同学可能很少见微博有什么公开的paper说他们是怎么做的,但是微博的用户量,dau都很高(人家下班也比你早嗷)。就是因为微博掌握了生产者,当明星,名人都用新浪微博的时候,起码粉丝们是肯定会使用微博的,这就是一个生产者作用的正例。
下期预告
推荐系统全链路(1):召回粗排精排-级联漏斗