代码改变世界

随笔分类 -  Python

文本挖掘之文本表示

2013-07-25 16:56 by 夜与周公, 10680 阅读, 收藏, 编辑
摘要: 当我们尝试使用统计机器学习方法解决文本的有关问题时,第一个需要的解决的问题是,如果在计算机中表示出一个文本样本。一种经典而且被广泛运用的文本表示方法,即向量空间模型(VSM),俗称“词袋模型”。 我们首先看一下向量空间模型如何表示一个文本: 空间向量模型需要一个“字典”:文本的样本集中特征词集合,这个字典可以在样本集中产生,也可以从外部导入,上图中的字典是[baseball, specs, graphics,..., space, quicktime, computer]。 有了字典后便可以表示出某个文本。先定义一个与字典长度相同的向量,向量中的每个位置对应字典中的相应位置的单词,比... 阅读全文

python for big data

2013-06-06 19:27 by 夜与周公, 455 阅读, 收藏, 编辑
摘要: 原文地址:http://www.xmind.net/m/WvfC/。呜呜,菜鸟一枚,只用过"Basic stack”,最基础插件~ 阅读全文

机器学习python工具包

2013-05-06 13:50 by 夜与周公, 289 阅读, 收藏, 编辑
摘要: http://jaquesgrobler.github.io/Online-Scikit-Learn-stat-tut/index.html 阅读全文