[推荐系统]数据之物料池排序

引言

推荐系统中的推荐是建立在海量数据挖掘基础上的，主要是给用户提供个性化的信息服务和决策支持，其主要作用是：

降低信息过载

发掘长尾

提高转化率

按照现在说法，推荐系统其实就是人，货，场中的场。主要就是将不同的信息推荐给不同的人，分为：

个性化,千人千面，精准到个人一面

非个性化，如热门推荐，编辑精选，相似推荐等

如从零搭建推荐系统——数据篇中所述，"将历史数据与现实流量打通，针对用户产生的行为数据挖掘出画像信息，结合物料信息共同构建出个性化的推荐模式"。

如图所示，物料池其实就是推荐系统中的货，而上图中的例子主要是新闻类推荐，众所周知，新闻类推荐和电商类推荐两者内在还是存在诸多不同的。如电商领域，货物通过录入系统录入之后，并接受各种标签以及描述信息的填写，这类数据,也就是物料主要以hive，hbase形式存储。

其实物料如何存储，如hive的大，但是慢，还是采用列式数据库hbase快速读取，这都取决于整个推荐系统的架构，推荐系统领域发展至今，其内部诸多功能并不是单一统一的，各个企业都有各自的考量点，如阿里妈妈的MIMN模型中，就是将不实时的部分解耦开，存储到外部，等用到再调用一样的道理。

虽然关于物料池的排序问题主要益于搜索系统，但是推荐系统也有其用武之地，如当对物料池进行以品类进行倒排后，在召回阶段（现在都基本是多路召回）的同品类商品召回上，就十分迅速了。关于电商数据如何采集以及如何建表，可参考书籍《大数据之路阿里巴巴大数据实践》和《大数据大创新阿里巴巴云上数据中台之道》

正排

假定物料池中一个物料如下：

用每条物料唯一的ID去取到这条物料的各种属性字段，查询这条物料的详细情况，这就是我们通常意义下的正排索引。所以如果要想知道多少物料包含某个属性，针对正排只有遍历这一条路。

正排索引其实就是数据结构中简单的排序了，什么快排啊，归并排序啊，直接对id从小到大排序即可。

倒排

在推荐系统的召回阶段，我们实际要取到某个特征、主题或关键词下的所有物料，作为推荐的候选集，如文章中提到的推荐池，是基于一些规则，从整体物料库（可能会有几十亿甚至百亿规模）中选择一些item进入推荐池，再通过汰换规则定期进行更新。比如电商平台可以基于近30天成交量、商品在所属类目价格档位等构建推荐池。

这个时候就反过来了，是由以特征为出发点去找具备这些特征的物料，这就是所谓的倒排索引。如下图就是关于文本的倒排索引的例子

posted @ 2022-06-15 11:05 仙守阅读(496) 评论(0) 收藏举报

刷新页面返回顶部

仙守

最美的不是下雨天,是曾与你躲过雨的屋檐!

[推荐系统]数据之物料池排序

引言

正排

倒排

公告