随笔分类 - Data Mining
摘要:继之前爬取知乎用户之后,目前爬取到3.5万条数据,但是在这些数据中有一些是没有完整填写用户信息的。检索数据库中地理位置不为空的用户,进行地域统计。 其中的shengshi.txt是省市的列表,文件如下: 生成result2.txt文件结构如下,为何要生成如此结构的文件,下文有用 使用echart网站
阅读全文
摘要:这个爬虫程序有别于之前写的两个,这个是自己写的,使用的是python库requests、redis、lxml。 一共有三个文件分别是config.ini用户名和cookie配置文件,zhihusp.py爬取用户名,get-info.py爬取用户其他信息。 下面分别将三个文件贴出来,两个python文
阅读全文
摘要:首先新建一个Scrapy项目,如果不知道项目怎么建的,请看前面爬取豆瓣TOP电影那篇文章。 目录结构如下: 因为我只是爬取问题,所以item里面只有一个title项,直接上zhihu_spider.py代码: 然后从apart.txt文件里面取出这些问题,将这些问题分词,对分出的词计数。 此处用到两
阅读全文
摘要:1、数据分析总的来说是:认清问题,解决问题 2、实验,(星巴克咖啡店),实验控制组 3、最优化策略;橡皮鸭和橡皮鱼 4、数据图形化;重要的散点图 5、假设检验,podphone手机明天或下个月会发布么?最可能什么时候发布。为每个猜想加权,比较。 6、贝叶斯统计:蜥蜴流感 7、主观概率,石油投资,利用
阅读全文
摘要:最近学习了python的一个超级牛的库scrapy,写下一些心得。 初看的时候,看的是官方文档,讲的有些晦涩,有些地方也有模糊不清的地方,而且完整的中高级的用例不多,再由于版本更新的问题,原来的一些方法发生了一些改变,所以在博客园上找到一篇博客结合官方文档,爬出一个自己的scrapy,主要目标豆瓣电
阅读全文

浙公网安备 33010602011771号