query相关性计算
原始问题是给定1亿query 怎么选择出与给定query 最相似的1000个,
群里大神回答说是分词 去噪,对于给定 query 的所有 term ,选出多有包含这些 term 的query,余弦相似度计算距离,然后从这些候选者中选出最相似的前1000个,如果很多,可采用 heap sort。
另外 对于 query 相似性可以添加几维主题信息,并不是一共这些主题,而是主题的相似性类似的,短文本的 query 不适合做主题模型,实现时通过用户对 query 的点击来扩展query并且运行 LDA 即可。
浙公网安备 33010602011771号