随笔分类 -  文本特征提取

潜在语义分析LSA
摘要:潜在语义分析通过矢量语义空间来分析文档和词的关系。基本假设:如果两个词多次出现在同个文档中,则两个词在语义上具有相似性。LSA使用大量文本构成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量... 阅读全文

posted @ 2015-11-12 12:19 IvanSSSS 阅读(3389) 评论(0) 推荐(0)

特征选择常用算法综述
摘要:特征选择的一般过程:1.生成子集:搜索特征子集,为评价函数提供特征子集2.评价函数:评价特征子集的好坏3.停止准则:与评价函数相关,一般是阈值,评价函数达到一定标准后就可停止搜索4.验证过程:在验证数据集上验证选出来的特征子集的有效性1.生成子集搜索算法有 完全搜索、启发式搜索、随机搜索 三大类。(... 阅读全文

posted @ 2015-11-10 21:19 IvanSSSS 阅读(12870) 评论(0) 推荐(0)

朴素贝叶斯分类
摘要:贝叶斯定理:X是已知条件,H是假设。映射到文本分类中,X就是给定的测试文档,H是文档属于的类别。朴素贝叶斯分类:即求出所有类的P(Ci|X),概率最大的类为预测类。因为P(X)是一样的,只需求P(X|C)P(C)即可。(1)P(Ci)=Ci类文档数/训练文档集总文档数(2)P(X|Ci)不好求,因此... 阅读全文

posted @ 2015-11-08 10:58 IvanSSSS 阅读(240) 评论(0) 推荐(0)

信息增益
摘要:首先说下信息熵其中X可以取x1,x2,...xn,Pi为X取xi的概率,信息熵反应X携带的信息量引申到分类系统,类别C可以取值C1,C2...Cn,整个分类系统的熵为其中P(Ci)=Ci类文档数/文档集总文档数信息增益针对的是特征词t,整个系统有t和没t的信息量的差就是信息增益。(1)系统有t时候的... 阅读全文

posted @ 2015-11-07 19:33 IvanSSSS 阅读(288) 评论(0) 推荐(0)

TF-IDF
摘要:TF-IDF可以用于特征提取,也可以用于特征权重计算,这里讲的是后者。 TF=文档d中特征词t的词频 IDF=log(文档总数/出现t的文档数) TF-IDF=TF*IDF (上式为weka中TFIDF计算公式,也是最经典的公式) 特征词的TFIDF权值代表了其在相应文档中的重要程度。 在朴素贝叶斯 阅读全文

posted @ 2015-11-07 01:21 IvanSSSS 阅读(475) 评论(0) 推荐(0)

导航