query相关性计算

　　原始问题是给定1亿query 怎么选择出与给定query 最相似的1000个，

　　群里大神回答说是分词去噪，对于给定 query 的所有 term ，选出多有包含这些 term 的query，余弦相似度计算距离，然后从这些候选者中选出最相似的前1000个，如果很多，可采用 heap sort。

　　另外对于 query 相似性可以添加几维主题信息，并不是一共这些主题，而是主题的相似性类似的，短文本的 query 不适合做主题模型，实现时通过用户对 query 的点击来扩展query并且运行 LDA 即可。