SVD和文本--笔记

文本(文档)表示模型:

向量空间模型

将文本表示为向量空间中的一个向量,以每个不同的特征项(例如:单词)对应于向量空间中的一个维度,每一维的值就是对应特征项在文本中的权重,权重可以由TF-IDF等算法得到。

TF-IDF(Term Frenquency-Inverse Documentition Frequency)

依据:单个单词在单个文本中的频率和在全部文本集中的频率,评估单词的重要程度。

TF 词频:词语在文本中出现的频率。如果一个单词在文本中出现的越多,词频就越高。

IDF 逆向文档频率:在少数文本中出现的单词比在多数文本中出现的单词的权重要高。

IDF的计算公式:

信息论解释:如果特征项(单词)在所有文本中出现的频率高,则其包含的信息熵越小。反之亦然。

TF-IDF的计算公式:

ti:第i个单词

dj:第j个文本(文档)。

TF-IDF的不足:会低估某一类文本中频繁出现的单词的权重。

改进:

TF计算公式:

IDF计算公式:

通过权重的计算,每一个文本(档)都可以表示为一个一维向量。

词汇-文档矩阵

矩阵巨大时怎么办?

潜在语义分析(Latent Semantic Analysis,LSA)

将文本空间中非完全正交的多维特征投影到维数较少的潜在语义空间上。从矩阵和统计角度讲,就是实现对特征空间的降噪、降维和压缩。同时保持原空间的语义特征。

通俗:剔除废话和重复话(同义词、近义词),寻找最能代表文本的特征。

SVD

 

 

 

 

 

𝐮i是U的列向量,𝐮i为M维向量,每一个维度对应一个单词。𝐮1对应由所有单词张成的空间中,方差最大的方向。𝐮2对应与𝐮1垂直的所有方向中,方差最大的方向。依次类推。

每个𝐮i对应一个潜在的语义(可以理解为1个topic,这个topic由𝐮i中的单词构成),𝐮i对应的奇异值(特征值)代表𝐮i中各个单词构成的方差,方差越大,各个单词之间越不相同,则对应的语义越具有特点(越明显,越有效,越有区分度)。

Vi为的行向量,Vi是N维向量,每一个维度对应一个文档。V1 对应于所有文档张成的空间中,方差最大的方向。V2对应与V1垂直的所有方向中,方差最大的方向。依次类推。

每个Vi对应一个潜在的语义,Vi对应的奇异值(特征值)代表Vi中各个文档构成的方差,方差越大,各个文档之间越不相同,则对应的语义越具有特点(越明显,越有效,越有区分度)。

每个语义都可以看作是由不同单词配以权重的线性组合产生的新特征。

 

posted @ 2016-09-30 23:47  幽灵cat  阅读(234)  评论(0)    收藏  举报