管理学大师彼得·德鲁克曾经说过“如果你无法度量它,就无法管理它”,这对于一个推荐系统的效果评估同样适用,要想看一个推荐系统是否有效,就难以绕开评估指标。评估一个推荐系统,包括离线评估和在线评估两种方式。下面详细展开介绍。1.离线评估离线评估包括人工评估、AUC、DCG。人工评估比较好理解,比如我们认为一个用户很喜欢动画片,于是进行一些推荐,我们可以直接去观察所推荐的内容中用户播放动画片的比例是否比较大;同时 AUC、DCG 也是常用的模型离线评价指标,但是这些数据指标可能会存在比较大的偏差,所以一般不会拿此指标来直接评估效果,而只是把它作为参照指标。2.在线评估推荐系统的在线评估指标包括:点击率、点击人数比、留存率、转化率等,具体包括:(1)点击率点击率是评估推荐效果比较经典的指标,记录了用户每次进入推荐内容的点击情况,能够粗略衡量转化效果。(2)点击人数比指点击的人数除以推荐的曝光人数,这是一个用来衡量推荐系统触达率的一个重要指标。在评估一个模型效果时,可能点击率上涨,但点击人数比并没有变化,这说明推荐结果只对于部分老用户产生比较好的效果,对于触达不到的用户,仍然没有成功吸引他们来使用我们的推荐系统,所以点击人数比与点击率是对推荐系统在不同方面的评估。(3)人均点击次数指每个人在推荐系统里面平均每天点击了多少次。人均点击次数是需要大家持续关注的指标,因为这个指标真正体现出用户在这款产品中的使用深度。(4)留存率和转化率留存率和转化率对于推荐系统来说,可能并不是一个那么直接的指标,比如推荐对留存的影响到底有多大,很大程度上决定于不同的产品形态,但它仍是我们去评估推荐系统的一个指标,至少我们需要知道此次推荐系统的迭代到底对于留存率的影响有多大,如果迭代后的留存率下降,即使点击率和点击人数都在上升,可能这一次迭代仍不能上线,因为它影响了留存的指标。还有一些方面,具体展开如下:时效性。如果我们在做一个新闻产品的推荐系统,那么给用户推荐的内容就应该是实时的,而不是上周发生的事情。多样性。多样性其实是容易被忽视的一个指标,因为如果不追求多样性的话,点击率的数据会好看一点。不知道大家有没有这样的体验,如果你对体育内容感兴趣,慢慢的你所有的推荐内容都变成了体育相关,似乎很难看到其他内容,推荐的内容越来越窄。短期来说,提升多样性可能会让点击率有一些损失,但是长期来说,多样性是为了提升整个产品用户体验所做的一种优化,这里需要考虑长期和短期的权衡。稳定性。如果服务器经常挂掉,或者说响应时间总是五秒钟,这样的服务基本上是不可用的,我们一定要站在服务的角度去评估我们的推荐系统。覆盖率。覆盖率指能够推荐出来足够多的长尾内容,一个 UGC 平台,需要去鼓励一些用户让他们来生成内容,即使是一些很小的用户,即使没有粉丝,也希望他的内容可以有一些曝光,有曝光就会有人去点赞,久而久之会形成一种良性循环。如果平台总是分发一些大 V 的内容,平台里小白用户的使用和体验就会变得非常糟糕,慢慢的就没有这些小的内容窗口了,平台将被大 V 占领,所以覆盖率也是一个推荐系统需要考虑的指标。至于具体需要去考虑哪些指标,以及怎么去制定这些指标,要根据不同的产品形态以及产品不同的阶段而定。