一条一条的读《推荐系统实战》2.0

说明:本系列是阅读项亮老师的《推荐系统实战》的一些即使笔记。自己记性不好,俗话说好记性都不如烂笔头,于是叮嘱自己作文记之。

上回书我们讲到推荐系统的基本介绍,算是用脚指头碰了碰推荐系统的门槛,希望我不要继续缩回去,继续碰它!
与人斗,其乐无穷。

第二章 利用用户行为数据

  1. 想要给别人推荐东西,首先得研究别人。----鲁迅(雾)
  2. 如何研究目标用户呢?孔子曰:听其言,观其行。这算是中国最早研究推荐系统的人, 比西方早了...呸。思想有了,但是做起来难。难点有三
    1. 自然语言理解技术很难理解用户用来描述兴趣的自然语言。(大家快去学NLP)
    2. 用户的兴趣偏好是动态变化的;
    3. 很多用户根本不知道自己喜欢什么。
  3. 研究用户一般是基于用户行为数据,挖掘潜在的行为模式,为推荐系统助力。啤酒尿布的例子懂吧?
  4. 用户行为数据分为两种,①显式反馈行为;②隐式反馈行为。
    1. 显式反馈行为是指那些能直接表达用户喜好的行为。喜欢/不喜欢,没有模棱两可。比如评分数据,很明显几分就是几分。
    2. 隐式反馈行为是指那些不能明确反映用户喜好的行为。比如购买、点击、浏览等,这些行为并不能说明用户就是喜欢或者不喜欢。
    3. 显式反馈和隐式反馈的区别:显式反馈中用户兴趣明确,数据中明显包含正负例样本,但是数量一般较少,难以获得。隐式反馈中用户兴趣不明确,而且一般只有正反馈,但是数据量大,容易获得。
  5. 用户行为分析中,有一个很重要的规律----幂律分布。这个分布也有其它的名字,例如,长尾分布、Zipf定律。个人感觉二八定律也算吧。举个例子,在社交网络中大多数用户只有很少的行为,只有少数用户拥有很多行为。大多数用户只有很少的粉丝,只有少数用户拥有大量粉丝。这个定律对转发量、物品流行度、社区大小、用户活跃度等很多人类规律都适合。你说神奇不神奇。
  6. 针对基于用户行为的推荐,评价指标在第一章已经讲过。这里着重关注Recall、Precision、Coverage,其公式如下,原文中有代码,有兴趣可以去康康。

\[Recall=\frac{\sum_{u}|R(u) \cap T(u)|}{\sum_u|T(u)|} \]

\[Precision=\frac{\sum_{u}|R(u) \cap T(u)|}{\sum_u|R(u)|} \]

\[Coverage=\frac{\cup_{u\in U}R(u)}{|I|} \]

  1. 上述公式具体含义第一章里面有介绍,我们可以掉个头看一看。

先到这,我们下次介绍基于邻域的算法。

posted @ 2020-06-10 20:45  蒙面的普罗米修斯  阅读(191)  评论(0编辑  收藏  举报