life‘s_a_struggle

导航

1.推荐系统FLOW

背景:推荐系统是随着互联网发展,数据出现迸发式增长。面对海量数据,用户对信息是茫然的。推荐系统应运而生,解决信息过载问题。

 

一、推荐系统概览

推荐系统 之 信息处理
顺序 1st 数据来源 2nd 内容审核 3rd 内容理解 4th 内容召回 5th 内容排序

解释

  1. 用户上传(UGC)
  2. 权威媒体(PGC)
  1. 黄赌毒、反动暴力
  2. 与产品格调差异比较大的要去除

对内容通过关键词提取、信息

提取对内容进行品类分类

从全量数据中找到相对

小的候选集(从百万级到百级)

把召回的内容按照一定的规则

进行排序。取出推荐给用户TOP k

如果不用AI怎处理 / 关键词匹配+人工审核

1.依赖用户自己打标签(作弊,容易

出现标签和内容不符)

2.人工审核

1.根据地点或者消费习惯

1.热度排行

2.时间排序

3.人工运营

   

NLP工程师

推荐系统工程师
AI怎么处理 /

文本分类

分类后,

1.时效性比较强的内容,运营审核后即可到

下一步

2.时效性不强的内容,机器学习审核后,先

小流量分发,

如果没有人举报(negative),再全流量分发。

文本多级分类(一级->二级->三级)

关键词提取(word2vec,fasttext,

gensim)

a.协同过滤(行为类)

b.文章相似度(内容类)

c.一般采用多路召回

d.热点召回

1.行为类召,存在冷启动问题,对新用

效果查。

2.内容类召回:a-易产生信息茧房

b-视屏类内容不好做。

粗排(100items)-->精排-->曝光过滤

(反复看过的不在推荐)(80items)-->

通过分类模型(FM等)-->

预估点击率-->内容得分排序(5items)

rank:a.打散:避免频繁出现同质化内容

b.广告:预留广告位

c.产品经理或者营销人为控制。

 

一般来说,在成熟的推荐系统中:

重点品类:人工运营为主,机器学习为辅

一般品类:大量机器学习推荐

实际工作中,看公司技术boss和运营boss话语权

 

posted on 2021-05-13 10:47  life‘s_a_struggle  阅读(47)  评论(0编辑  收藏  举报