搜索框 sug 基本技术方案

一、候选 sug 词数据来源:

商品侧:query 召回的商品数、query 召回的订单数
query侧:QV、QV_CTR、QV_CXR
从这两个角度选出的 query 作为 sug 词候选集

二、数据处理(分析)

规则挖掘、FP算法挖掘、商品标题NER标签提取:功效/品牌/适用群体/适用场景+简名

三、sug 词召回

query:商品侧 vs query侧
query处理:原始query(未处理) vs 改写query
原始query/改写query-->分词-->基于分词结果从候选集中进行前缀召回
原始query/改写query-->拼音前缀匹配召回
原始query/改写query-->连续子串匹配召回

四、排序

query 侧召回的词 > 商品侧召回的词
搜索PV
固定指标:QV_CTR/QV_CXR

五、评价指标

sug 词点击率
搜索框点击跳出率
相关产品功能的转化指标等

六、工程技术方案

https://github.com/hankcs/AhoCorasickDoubleArrayTrie 双数组字典树,key 是查询词,value 支持对象(sug结果词+各种指标(搜索 uv、QV_CTR、QV_CXR))

posted @ 2022-08-28 09:41  大熊猫同学  阅读(667)  评论(0编辑  收藏  举报