hahaxzy

2017年6月5日

摘要：朴素贝叶斯算法简单、高效。接下来我们来介绍其如何应用在《红楼梦》作者的鉴别上。第一步，当然是先得有文本数据，我在网上随便下载了一个txt（当时急着交初稿。。。）。分类肯定是要一个回合一个回合的分，所以我们拿到文本数据后，先进行回合划分。然后就是去标点符号、分词，做词频统计。文本分类我个人感觉最重阅读全文

posted @ 2017-06-05 17:04 hahaxzy 阅读(3868) 评论(2) 推荐(0)

2017年6月3日

python：BeautifulSoup学习

摘要：上一篇说到用BeautifulSoup解析源代码，下面我们就来实战一下：其实用open的方式可以避免decode报错，可以的话还是用open比较好。运行结果：噌~是不是快了许多，还有更快的： h1其实是一个标签，用BeautifulSoup解析过后可以直接引用，下面我们直接引用title标签（学阅读全文

posted @ 2017-06-03 22:09 hahaxzy 阅读(356) 评论(0) 推荐(0)

python：网络爬虫的学习笔记

摘要：如果要爬取的内容嵌在网页源代码中的话，直接下载网页源代码再利用正则表达式来寻找就ok了。下面是个简单的例子：注意，decode方法有时候可能会报错，例如具体原因不知道，可以用decode的一个参数，如下 replace表示遇到不能转码的字符就将其替换成问号还是什么的。。。这也算是一个折中的方法吧阅读全文

posted @ 2017-06-03 21:03 hahaxzy 阅读(344) 评论(0) 推荐(0)

2017年5月30日

R语言：时间的转化

摘要：一般使用R从数据库导出来的时间数据一般都不是我们能看的懂的（具体是什么格式的我也忘记了），需要做如下转化最近从网上爬下来的时间数据是UTC格式的，需要作如下转化 2 as.Date(my_date,format = '%Y-%M-%D') > as.Date(my_date,format = '% 阅读全文

posted @ 2017-05-30 14:39 hahaxzy 阅读(1477) 评论(0) 推荐(0)

python：将字典转化为数据框

摘要：一个key只有一个value的字典如果直接转化成数据框会报错应该做如下转换阅读全文

posted @ 2017-05-30 13:30 hahaxzy 阅读(26863) 评论(0) 推荐(0)

2017年5月25日

R语言：读入txt文件中文文本出现乱码解决方案

摘要：下载安装 readr 因为使用内置函数 read.table() 读入应该是格式不符合要求会报错可以使用里面的 read_table()，下面来检测一下阅读全文

posted @ 2017-05-25 10:15 hahaxzy 阅读(8323) 评论(0) 推荐(0)

2017年5月14日

python：将numpy数组写入csv文件

摘要： 1 import numpy as np 2 np.savetxt('E:\\forpython\\featvector.csv',data_to_save,delimiter=',') 阅读全文

posted @ 2017-05-14 22:21 hahaxzy 阅读(28189) 评论(0) 推荐(2)

python：科学计数法转化为浮点型数据

摘要：实验一下阅读全文

posted @ 2017-05-14 21:46 hahaxzy 阅读(44814) 评论(1) 推荐(2)

2017年4月24日

朴素贝叶斯分类算法：具体内容

摘要：了解完了什么是贝叶斯公式后，我们开始接触这个算法的核心。因为是要用Python实现的，所以我找到了skit-learn的官网，上面有朴素贝叶斯分类算法的帮助文档，看完之后感觉思路挺清晰的，这是网址： http://scikit-learn.org/stable/modules/naive_baye 阅读全文

posted @ 2017-04-24 17:14 hahaxzy 阅读(755) 评论(0) 推荐(0)

2017年4月22日

朴素贝叶斯分类算法：对贝叶斯公式的理解

摘要：为了完成自己的毕业论文，不得不接触这个朴素贝叶斯分类算法。。。真是惭愧啊（快毕业了才学这个。。。还初识）哈哈，不过只要肯学什么时候都不会晚要想完全理解这个算法，必须先去百度一下原来朴素贝叶斯分类算法是借用到了贝叶斯定理，那什么是贝叶斯定理呢...不多BB，先看一看什么是条件概率：P(A|B) 阅读全文

posted @ 2017-04-22 18:01 hahaxzy 阅读(780) 评论(0) 推荐(0)

欢迎各位指教，共同进步

公告