随笔分类 - 文本挖掘与情感分析

文本挖掘之特征选择(python 实现)

2013-08-15 10:32 by 夜与周公, 33333 阅读, 收藏, 编辑

摘要：机器学习算法的空间、时间复杂度依赖于输入数据的规模，维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法。维度规约可以分为两类：特征选择(feature selection)，从原始的d维空间中，选择为我们提供信息最多的k个维(这k个维属于原始空间的子集)特征提取(feature extraction)，将原始的d维空间映射到k维空间中(新的k维空间不输入原始空间的子集) 在文本挖掘与文本分类的有关问题中，常采用特征选择方法。原因是文本的特征一般都是单词(term)，具有语义信息，使用特征选择找出的k维子集，仍然是单词作为特征，保留了语义信息... 阅读全文

18 Comment

文本挖掘之文本表示

2013-07-25 16:56 by 夜与周公, 10680 阅读, 收藏, 编辑

摘要：当我们尝试使用统计机器学习方法解决文本的有关问题时，第一个需要的解决的问题是，如果在计算机中表示出一个文本样本。一种经典而且被广泛运用的文本表示方法，即向量空间模型(VSM)，俗称“词袋模型”。我们首先看一下向量空间模型如何表示一个文本：空间向量模型需要一个“字典”：文本的样本集中特征词集合，这个字典可以在样本集中产生，也可以从外部导入，上图中的字典是[baseball, specs, graphics,..., space, quicktime, computer]。有了字典后便可以表示出某个文本。先定义一个与字典长度相同的向量，向量中的每个位置对应字典中的相应位置的单词，比... 阅读全文

11 Comment

夜与周公

随笔分类 - 文本挖掘与情感分析

文本挖掘之特征选择(python 实现)

文本挖掘之文本表示

About