2019年10月12日

RSS(简易信息聚合)和jieba(第三方分词组件)

摘要: 简易信息聚合(也叫聚合内容)是一种RSS基于XML标准,在互联网上被广泛采用的内容包装和投递协议。RSS(Really Simple Syndication)是一种描述和同步网站的内容格式,是使用最广泛的XML应用。RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。 需要安装 阅读全文

posted @ 2019-10-12 11:00 柒~年 阅读(296) 评论(0) 推荐(0)

第四章--基于概率论的分类方法:朴素贝叶斯--新闻分类(三)

摘要: 1 import os 2 import jieba 3 import random 4 """ 5 函数说明:中文文本处理 6 Parameters: 7 folder_path - 文本存放的路径 8 test_size - 测试集占比,默认占所有数据集的百分之20 9 Returns: 10 all_words_list - 按词频降序排序的训练集列表 11 train_data_list 阅读全文

posted @ 2019-10-12 10:36 柒~年 阅读(189) 评论(0) 推荐(0)

第四章--基于概率论的分类方法:朴素贝叶斯--过滤垃圾邮件(二)

摘要: 朴素贝叶斯对电子邮件进行分类的步骤:收集数据:提供文本文件。准备数据:将文本文件解析成词条向量。分析数据:检查词条确保解析的正确性。训练算法:使用我们之前建立的trainNB0()函数。测试算法:使用classifyNB(),并构建一个新的测试函数来计算文档集的错误率。使用算法:构建一个完整的程序对 阅读全文

posted @ 2019-10-12 09:54 柒~年 阅读(452) 评论(0) 推荐(0)

第四章--基于概率论的分类方法:朴素贝叶斯(一)

摘要: 1.1基于贝叶斯决策理论的分类方法 我们称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据。 贝叶斯决策理论的核心思想:选择具有最高概率的决策。 1.2条件概率 条件 阅读全文

posted @ 2019-10-12 09:16 柒~年 阅读(350) 评论(0) 推荐(0)

导航