会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hcw_19
现在的努力决定你未来站立的高度,所立之处决定你看到什么样的风景
博客园
首页
新随笔
联系
订阅
管理
2017年7月11日
scrapy实战9动态设置ip代理从数据库中随机获取一个可用的ip:
摘要: 在目录下创建tools(python package) 在tools中创建crawl_xici_ip.py文件写入代码如下: 在middlewares.py中添加代码如下: 在settings.py中配置
阅读全文
posted @ 2017-07-11 15:29 hcw_19
阅读(4135)
评论(1)
推荐(0)
2017年7月4日
scrapy实战8关于数据异步写入mysql:
摘要: 环境:python3 爬取网址:腾讯社招(http://hr.tencent.com/position.php?keywords=&tid=0&start=0#a)总共2202条数据 pipelines.py items.py settings.py spiders/Tencent.py
阅读全文
posted @ 2017-07-04 15:30 hcw_19
阅读(4657)
评论(0)
推荐(0)
2017年6月22日
关于在使用scrapy-redis分布式踩过的那些坑:
摘要: 自己的案列:win7上安装ubuntu (win7作为slaver,ubuntu作为master ) 修改配置文件redis.conf 1)打开配置文件把下面对应的注释掉# bind 127.0.0.1 2)Redis默认不是以守护进程的方式运行,可以通过该配置项修改,设置为nodaemonize
阅读全文
posted @ 2017-06-22 17:31 hcw_19
阅读(4188)
评论(0)
推荐(0)
2017年6月21日
scrapy实战7爬取搜狗微信:
摘要: 爬取微信热门文章标题,内容,内容地址,微信公众号,公众号地址,发布日期等 如图 源码地址:https://github.com/huwei86/sougouweixin
阅读全文
posted @ 2017-06-21 12:37 hcw_19
阅读(545)
评论(0)
推荐(0)
scrapy实战6爬取IT桔子国内所有融资公司:
摘要: 爬取融资公司,融资公司简介,融资时间,轮次,融资额,投资方,股权占比以及融资公司完整融资历史 如图 源码地址:https://github.com/huwei86/spiderITjuzi
阅读全文
posted @ 2017-06-21 12:02 hcw_19
阅读(1341)
评论(1)
推荐(0)
2017年6月16日
scrapy实战5 POST方法抓取ajax动态页面(以慕课网APP为例子):
摘要: 在手机端打开慕课网,fiddler查看如图注意圈起来的位置 经过分析只有画线的page在变化 上代码: items.py 1 import scrapy 2 3 4 class ImoocItem(scrapy.Item): 5 # define the fields for your item h
阅读全文
posted @ 2017-06-16 16:23 hcw_19
阅读(4256)
评论(1)
推荐(0)
scrapy实战4 GET方法抓取ajax动态页面(以糗事百科APP为例子):
摘要: 一般来说爬虫类框架抓取Ajax动态页面都是通过一些第三方的webkit库去手动执行html页面中的js代码, 最后将生产的html代码交给spider分析。本篇文章则是通过利用fiddler抓包获取json数据分析Ajax页面的具体请求内容,找到获取数据的接口url,直接调用该接口获取数据,省去了引
阅读全文
posted @ 2017-06-16 12:52 hcw_19
阅读(2209)
评论(0)
推荐(0)
2017年6月12日
scrapy实战3利用fiddler对手机app进行抓包爬虫图片下载(重写ImagesPipeline):
摘要: 关于fiddler的使用方法参考(http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html) 本案例爬取斗鱼 app 先利用fiddler分析抓包json数据如下图 通过分析发现变化的只有offset 确定item字段 开始编写代码
阅读全文
posted @ 2017-06-12 17:17 hcw_19
阅读(656)
评论(0)
推荐(0)
2017年6月11日
关于安装了git或者小乌龟(TortoiseGit)使用之后出现红色! 绿色√ 蓝色?的解决办法:
摘要: 在当前目录中新建文件保存为(删除git信息.bat)在其写入:for /r . %%a in (.) do @if exist "%%a\.git" rd /s /q "%%a\.git" 点击运行即可 运行之前 点击运行之后:
阅读全文
posted @ 2017-06-11 16:37 hcw_19
阅读(3386)
评论(0)
推荐(0)
scrapy实战2分布式爬取lagou招聘(加入了免费的User-Agent随机动态获取库 fake-useragent 使用方法查看:https://github.com/hellysmile/fake-useragent)
摘要: items.py 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # 5 # See documentation in: 6 # http://doc.scrapy.org/en/late
阅读全文
posted @ 2017-06-11 16:14 hcw_19
阅读(555)
评论(0)
推荐(0)
下一页
公告