一条一条的读《推荐系统实战》2.0

说明：本系列是阅读项亮老师的《推荐系统实战》的一些即使笔记。自己记性不好，俗话说好记性都不如烂笔头，于是叮嘱自己作文记之。

上回书我们讲到推荐系统的基本介绍，算是用脚指头碰了碰推荐系统的门槛，希望我不要继续缩回去，继续碰它！
与人斗，其乐无穷。

第二章利用用户行为数据

想要给别人推荐东西，首先得研究别人。----鲁迅（雾）
如何研究目标用户呢？孔子曰：听其言，观其行。这算是中国最早研究推荐系统的人，比西方早了...呸。思想有了，但是做起来难。难点有三：
1. 自然语言理解技术很难理解用户用来描述兴趣的自然语言。（大家快去学NLP）
2. 用户的兴趣偏好是动态变化的；
3. 很多用户根本不知道自己喜欢什么。
研究用户一般是基于用户行为数据，挖掘潜在的行为模式，为推荐系统助力。啤酒尿布的例子懂吧？
用户行为数据分为两种，①显式反馈行为；②隐式反馈行为。
1. 显式反馈行为是指那些能直接表达用户喜好的行为。喜欢/不喜欢，没有模棱两可。比如评分数据，很明显几分就是几分。
2. 隐式反馈行为是指那些不能明确反映用户喜好的行为。比如购买、点击、浏览等，这些行为并不能说明用户就是喜欢或者不喜欢。
3. 显式反馈和隐式反馈的区别：显式反馈中用户兴趣明确，数据中明显包含正负例样本，但是数量一般较少，难以获得。隐式反馈中用户兴趣不明确，而且一般只有正反馈，但是数据量大，容易获得。
用户行为分析中，有一个很重要的规律----幂律分布。这个分布也有其它的名字，例如，长尾分布、Zipf定律。个人感觉二八定律也算吧。举个例子，在社交网络中大多数用户只有很少的行为，只有少数用户拥有很多行为。大多数用户只有很少的粉丝，只有少数用户拥有大量粉丝。这个定律对转发量、物品流行度、社区大小、用户活跃度等很多人类规律都适合。你说神奇不神奇。
针对基于用户行为的推荐，评价指标在第一章已经讲过。这里着重关注Recall、Precision、Coverage，其公式如下，原文中有代码，有兴趣可以去康康。

\[Recall=\frac{\sum_{u}|R(u) \cap T(u)|}{\sum_u|T(u)|} \]

\[Precision=\frac{\sum_{u}|R(u) \cap T(u)|}{\sum_u|R(u)|} \]

\[Coverage=\frac{\cup_{u\in U}R(u)}{|I|} \]

上述公式具体含义第一章里面有介绍，我们可以掉个头看一看。

先到这，我们下次介绍基于邻域的算法。

posted @ 2020-06-10 20:45 蒙面的普罗米修斯阅读(225) 评论(0) 收藏举报

刷新页面返回顶部

Masked Prometheus

machine learning, algorithm, social computing...

一条一条的读《推荐系统实战》2.0

第二章利用用户行为数据

如果你喜欢的话...

如果读完我写的笔记有疑问或者想法，欢迎留下您的评论，我们一起交流、共同讨论、相互学习。如果这篇笔记让您有收获，愿您不吝打赏，您的鼓励是对我最大的肯定，也督促我记录更多质量更好的笔记。

公告

Masked Prometheus

machine learning, algorithm, social computing...

一条一条的读《推荐系统实战》2.0

第二章 利用用户行为数据

公告

第二章利用用户行为数据