词向量---LSA(Latent Semantic Analysis)

 

举例:

 

 

 

矩阵分解之后,取前两维,k=2,

 

 

单词距离:

 

文档距离:

 

通过LSA分析之后计算文档间的余弦相似度,属于同一个类型文本之间的相似度很接近;在原始文档间计算相似度,效果不如LSA

 

 

 当出现新的query,先将query降到二维空间,再和已有文档的二维矩阵计算相似度,可以看出query与C类文档相似度很高

 

 

 

参考文献:

【1】视频:清华大学【数据挖掘:推荐算法】

posted @ 2019-06-03 16:12  nxf_rabbit75  阅读(883)  评论(0编辑  收藏  举报