会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
月下柳梢映
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
数据挖掘-scrapy
爬取易车网所有车系车型数据
摘要:下面就是是源代码,我是直接把数据保存在字典并且打印到控制台的
阅读全文
posted @
2017-11-27 16:02
双鱼男-huangsh
阅读(1453)
评论(1)
推荐(0)
爬取房天下整个网站房产数据。。。
摘要:以前爬的数据量都有点少了,所以现在写个爬房天下全站数据爬虫来,用redis进行URL的去重处理,采用mysql储存清洗过后房产数据,采用线程池来进行调度,进行多线程爬取 后面会用scrapy框架做分布式集群来爬取数据,做完分布式爬虫就差不多了,后面就是scrapy深入研究和数据系统开发的学习 下面是
阅读全文
posted @
2017-10-29 16:54
双鱼男-huangsh
阅读(4291)
评论(1)
推荐(0)
pycharm下虚拟环境执行并调试scrapy爬虫程序(一)
摘要:配置scrapy环境 分别pip install Zope.Interface、Twisted、w3lib、lxml、pyOpenSSL、Scrapy 新建爬虫项目,pycharm运行 我的项目名称为RadioCrawl文件夹为 Paste_Image.png 新建main.pyfrom scrap
阅读全文
posted @
2017-10-14 13:42
双鱼男-huangsh
阅读(503)
评论(0)
推荐(0)
爬取淘女郎模特个人信息数据和写真
摘要:趁着国庆节有时间,帮人写了个爬取淘女郎模特动态加载的图片的爬虫,还有爬取模特们的个人信息数据,这个爬虫花了3天时间,因为图片是异步加载的所以爬取的复杂度有点大,最终我通过研究URL的变化,构造新的URL来进行持续性爬取,不过爬取速度真心慢(查看了cpu的利用率还有很多没有利用到),我准备把多线程加进去说实话不太好加,有点头大, 1 # -*- coding: utf-8 -*- 2 im...
阅读全文
posted @
2017-10-03 17:52
双鱼男-huangsh
阅读(1366)
评论(0)
推荐(0)
多线程爬取房天下数据,并且存储到mysql(增加爬取日志输出模块)
摘要:下面是源代码,在调试代码的过程中,发现用mysql存储特别慢,最好用mongodb或者redis,后面将会推出协程和线程搭配爬取数据 alter table ftx modify column price varchar(100) character set utf8 not null #修改字段的
阅读全文
posted @
2017-09-02 21:10
双鱼男-huangsh
阅读(422)
评论(0)
推荐(0)
mongodb启动不了解决方法
摘要:MONGODB无法启动的解决方法 遇到MongoDB突然无法启动,第一反应是删除mongod.lock。这个文件在MongoDB的数据库目录下,默认是/data/db。这是最常见的问题了,产生原因是MongoDB没有正常结束(比如被kill -9杀掉或是其他意外情况导致中断)。 还一些其他情况会导致
阅读全文
posted @
2017-07-09 12:52
双鱼男-huangsh
阅读(1254)
评论(0)
推荐(0)
公告