随笔分类 -  搜索与推荐

摘要:对于Category的特征,我们通常有两种方法把它变成一个数字:Label编码和hash编码;使用sklearn的LabelEncoder可以实现把Label编码成数字。 现在主要介绍使用hash方法对类别进行编码 1.在大型工业场景下,会源源不断地出现新的item,新的用户,新的id,原先的one 阅读全文
posted @ 2022-01-20 22:45 今夜无风 阅读(645) 评论(0) 推荐(0)
摘要:推荐系统中最重要的两部分是特征和模型,早期模型上没有很大突破的时候,人工特征工程是推荐系统发展的主要方向。在这里我总结一下做特征工程的思路和不同特征的处理方式。 1. 创造特征的思路 业务背景特征在推荐系统中猜测用户是否点击内容,可以仔细分析用户从打开手机到看到推荐内容的整个过程中的任何因素,比如这 阅读全文
posted @ 2022-01-20 17:22 今夜无风 阅读(485) 评论(0) 推荐(0)
摘要:最好的trick就是保证数据精准前提下,如无必要,不要采样。既然数据是模型的上限,就不应该破坏这个上限。 聊聊什么是精准。 很多号称数据清洗的工作,都是工程体系太弱的后果,其实不是算法的问题。比如,没有曝光日志,用了服务端日志,伪曝光做了负样本;没有准确的曝光日志,比如卡片漏出了一个头用户根本没看到 阅读全文
posted @ 2021-03-30 21:16 今夜无风 阅读(2285) 评论(0) 推荐(0)