随笔分类 -  数据挖掘-scrapy

摘要:下面就是是源代码,我是直接把数据保存在字典并且打印到控制台的 阅读全文
posted @ 2017-11-27 16:02 双鱼男-huangsh 阅读(1453) 评论(1) 推荐(0)
摘要:以前爬的数据量都有点少了,所以现在写个爬房天下全站数据爬虫来,用redis进行URL的去重处理,采用mysql储存清洗过后房产数据,采用线程池来进行调度,进行多线程爬取 后面会用scrapy框架做分布式集群来爬取数据,做完分布式爬虫就差不多了,后面就是scrapy深入研究和数据系统开发的学习 下面是 阅读全文
posted @ 2017-10-29 16:54 双鱼男-huangsh 阅读(4291) 评论(1) 推荐(0)
摘要:配置scrapy环境 分别pip install Zope.Interface、Twisted、w3lib、lxml、pyOpenSSL、Scrapy 新建爬虫项目,pycharm运行 我的项目名称为RadioCrawl文件夹为 Paste_Image.png 新建main.pyfrom scrap 阅读全文
posted @ 2017-10-14 13:42 双鱼男-huangsh 阅读(503) 评论(0) 推荐(0)
摘要:趁着国庆节有时间,帮人写了个爬取淘女郎模特动态加载的图片的爬虫,还有爬取模特们的个人信息数据,这个爬虫花了3天时间,因为图片是异步加载的所以爬取的复杂度有点大,最终我通过研究URL的变化,构造新的URL来进行持续性爬取,不过爬取速度真心慢(查看了cpu的利用率还有很多没有利用到),我准备把多线程加进去说实话不太好加,有点头大, 1 # -*- coding: utf-8 -*- 2 im... 阅读全文
posted @ 2017-10-03 17:52 双鱼男-huangsh 阅读(1366) 评论(0) 推荐(0)
摘要:下面是源代码,在调试代码的过程中,发现用mysql存储特别慢,最好用mongodb或者redis,后面将会推出协程和线程搭配爬取数据 alter table ftx modify column price varchar(100) character set utf8 not null #修改字段的 阅读全文
posted @ 2017-09-02 21:10 双鱼男-huangsh 阅读(422) 评论(0) 推荐(0)
摘要:MONGODB无法启动的解决方法 遇到MongoDB突然无法启动,第一反应是删除mongod.lock。这个文件在MongoDB的数据库目录下,默认是/data/db。这是最常见的问题了,产生原因是MongoDB没有正常结束(比如被kill -9杀掉或是其他意外情况导致中断)。 还一些其他情况会导致 阅读全文
posted @ 2017-07-09 12:52 双鱼男-huangsh 阅读(1254) 评论(0) 推荐(0)