Data Mining - 随笔分类 - phil_chow

知乎用户地域分析

摘要：继之前爬取知乎用户之后，目前爬取到3.5万条数据，但是在这些数据中有一些是没有完整填写用户信息的。检索数据库中地理位置不为空的用户，进行地域统计。其中的shengshi.txt是省市的列表，文件如下：生成result2.txt文件结构如下，为何要生成如此结构的文件，下文有用使用echart网站阅读全文

posted @ 2015-12-23 16:31 phil_chow 阅读(738) 评论(0) 推荐(0)

爬虫之知乎用户信息爬取

摘要：这个爬虫程序有别于之前写的两个，这个是自己写的，使用的是python库requests、redis、lxml。一共有三个文件分别是config.ini用户名和cookie配置文件，zhihusp.py爬取用户名，get-info.py爬取用户其他信息。下面分别将三个文件贴出来，两个python文阅读全文

posted @ 2015-12-08 20:56 phil_chow 阅读(2540) 评论(0) 推荐(0)

Scrapy 爬虫之知乎互联网精华问题

摘要：首先新建一个Scrapy项目，如果不知道项目怎么建的，请看前面爬取豆瓣TOP电影那篇文章。目录结构如下：因为我只是爬取问题，所以item里面只有一个title项，直接上zhihu_spider.py代码：然后从apart.txt文件里面取出这些问题，将这些问题分词，对分出的词计数。此处用到两阅读全文

posted @ 2015-12-07 21:55 phil_chow 阅读(227) 评论(0) 推荐(0)

《深入浅出数据分析》

摘要：1、数据分析总的来说是：认清问题，解决问题 2、实验，（星巴克咖啡店），实验控制组 3、最优化策略；橡皮鸭和橡皮鱼 4、数据图形化；重要的散点图 5、假设检验，podphone手机明天或下个月会发布么？最可能什么时候发布。为每个猜想加权，比较。 6、贝叶斯统计：蜥蜴流感 7、主观概率，石油投资，利用阅读全文

posted @ 2015-10-17 17:29 phil_chow 阅读(409) 评论(0) 推荐(0)

Scrapy爬虫之豆瓣TOP250

摘要：最近学习了python的一个超级牛的库scrapy，写下一些心得。初看的时候，看的是官方文档，讲的有些晦涩，有些地方也有模糊不清的地方，而且完整的中高级的用例不多，再由于版本更新的问题，原来的一些方法发生了一些改变，所以在博客园上找到一篇博客结合官方文档，爬出一个自己的scrapy，主要目标豆瓣电阅读全文

posted @ 2015-09-24 21:34 phil_chow 阅读(327) 评论(0) 推荐(0)

Phil Chow

心有猛虎，细嗅蔷薇

随笔分类 - Data Mining

公告