摘要: 朴素贝叶斯算法简单、高效。接下来我们来介绍其如何应用在《红楼梦》作者的鉴别上。 第一步,当然是先得有文本数据,我在网上随便下载了一个txt(当时急着交初稿。。。)。分类肯定是要一个回合一个回合的分,所以我们拿到文本数据后,先进行回合划分。然后就是去标点符号、分词,做词频统计。 文本分类我个人感觉最重 阅读全文
posted @ 2017-06-05 17:04 hahaxzy 阅读(3773) 评论(2) 推荐(0) 编辑
摘要: 上一篇说到用BeautifulSoup解析源代码,下面我们就来实战一下: 其实用open的方式可以避免decode报错,可以的话还是用open比较好。运行结果: 噌~是不是快了许多,还有更快的: h1其实是一个标签,用BeautifulSoup解析过后可以直接引用,下面我们直接引用title标签(学 阅读全文
posted @ 2017-06-03 22:09 hahaxzy 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 如果要爬取的内容嵌在网页源代码中的话,直接下载网页源代码再利用正则表达式来寻找就ok了。下面是个简单的例子: 注意,decode方法有时候可能会报错,例如 具体原因不知道,可以用decode的一个参数,如下 replace表示遇到不能转码的字符就将其替换成问号还是什么的。。。这也算是一个折中的方法吧 阅读全文
posted @ 2017-06-03 21:03 hahaxzy 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 一般使用R从数据库导出来的时间数据一般都不是我们能看的懂的(具体是什么格式的我也忘记了),需要做如下转化 最近从网上爬下来的时间数据是UTC格式的,需要作如下转化 2 as.Date(my_date,format = '%Y-%M-%D') > as.Date(my_date,format = '% 阅读全文
posted @ 2017-05-30 14:39 hahaxzy 阅读(1385) 评论(0) 推荐(0) 编辑
摘要: 一个key只有一个value的字典如果直接转化成数据框会报错 应该做如下转换 阅读全文
posted @ 2017-05-30 13:30 hahaxzy 阅读(26799) 评论(0) 推荐(0) 编辑
摘要: 下载安装 readr 因为使用内置函数 read.table() 读入应该是格式不符合要求会报错 可以使用里面的 read_table(),下面来检测一下 阅读全文
posted @ 2017-05-25 10:15 hahaxzy 阅读(8062) 评论(0) 推荐(0) 编辑
摘要: 1 import numpy as np 2 np.savetxt('E:\\forpython\\featvector.csv',data_to_save,delimiter=',') 阅读全文
posted @ 2017-05-14 22:21 hahaxzy 阅读(28114) 评论(0) 推荐(2) 编辑
摘要: 实验一下 阅读全文
posted @ 2017-05-14 21:46 hahaxzy 阅读(44651) 评论(1) 推荐(2) 编辑
摘要: 了解完了什么是贝叶斯公式后,我们开始接触这个算法的核心。 因为是要用Python实现的,所以我找到了skit-learn的官网,上面有朴素贝叶斯分类算法的帮助文档,看完之后感觉思路挺清晰的,这是网址: http://scikit-learn.org/stable/modules/naive_baye 阅读全文
posted @ 2017-04-24 17:14 hahaxzy 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 为了完成自己的毕业论文,不得不接触这个朴素贝叶斯分类算法。。。真是惭愧啊(快毕业了才学这个。。。还初识) 哈哈,不过只要肯学什么时候都不会晚 要想完全理解这个算法,必须先去百度一下 原来朴素贝叶斯分类算法是借用到了贝叶斯定理,那什么是贝叶斯定理呢...不多BB, 先看一看什么是条件概率:P(A|B) 阅读全文
posted @ 2017-04-22 18:01 hahaxzy 阅读(769) 评论(0) 推荐(0) 编辑