随笔分类 -  文本分类

摘要:机器学习领域的算法评估有三个基本的指标。 1. 召回率(Recall Rate,也叫查全率):是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。 召回率=系统检索到的相关文档数/系统所有相关文档的总数 2. 准确率(Precision,也称为精度):是检索出的相关文档数 阅读全文
posted @ 2017-06-17 15:46 三门曾经 阅读(2329) 评论(0) 推荐(0)
摘要:下面是设计分类器,用训练集训练,用测试集测试。在做这些工作之前,一定要记住,首先要把测试数据也映射到上面这个TF IDF词向量空间中,也就是说,测试集和训练集处在同一个词向量空间(vocabulary相同),只不过测试集有自己的tdm,与训练集(train_word_bag/tfdifspace.d 阅读全文
posted @ 2017-06-15 22:30 三门曾经 阅读(780) 评论(0) 推荐(0)
摘要:下载安装jieba的过程如下: 1 "下载jieba" 2 将其解压到E:\python2,如图所示: 3 在桌面左下角搜索框中输入“运行”,之后输入“cmd”。再按照下面的命令切换到jieba所在的目录。 4 样例代码 5 运行结果 阅读全文
posted @ 2017-06-15 09:16 三门曾经 阅读(2586) 评论(0) 推荐(0)
摘要:一. 文本预处理 文本处理的核心任务是要把非结构化和半结构化的文本转换成结构化的形式,即向量空间模型,在这之前,必须要对不同类型的文本进行预处理,在大多数文本挖掘任务中,文本预处理的步骤都是相似的,基本步骤如下: 1.选择处理的文本范围 2.建立分类文本语料库 2.1训练集语料(已经分好类的文本资源 阅读全文
posted @ 2017-06-15 09:05 三门曾经 阅读(2049) 评论(0) 推荐(0)
摘要:文本挖掘是从非结构化文本信息中获取用户感兴趣的或者有用的模式的过程。也就是从大量文本数据中抽取事先未知的、可理解的、最中可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。 中文语言的文本分类技术和流程,步骤: 1.预处理(去除噪声、例如html标签、文本格式转化、检测句子边界) 2.中文 阅读全文
posted @ 2017-06-15 08:49 三门曾经 阅读(1948) 评论(0) 推荐(0)
摘要:接下来,目的就是要将训练集所有文本文件(词向量)统一到同一个词向量空间中。在词向量空间中,事实上不同的词,它的权重是不同的,它对文本分类的影响力也不同,为此我们希望得到的词向量空间不是等权重的空间,而是不同权重的词向量空间。我们把带有不同权重的词向量空间叫做“加权词向量空间”,也有的技术文档将其称为 阅读全文
posted @ 2017-06-14 22:32 三门曾经 阅读(2487) 评论(0) 推荐(0)
摘要:对原始数据集进行分词处理,并且通过绑定为Bunch数据类型,实现了数据集的变量表示。 文本分类的结构化方法就是向量空间模型,把文本表示为一个向量,该向量的每个特征表示为文本中出现的词。通常,把训练集中出现的每个不同的字符串都作为一个维度,包括常用词、专有词、词组和其他类型的模式串,如电子邮件地址和U 阅读全文
posted @ 2017-06-14 16:33 三门曾经 阅读(6360) 评论(0) 推荐(0)