会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
起航追梦人
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
13
下一页
2018年12月11日
day_7:代理使用
摘要: 一、代理池 代理池分为4块:存储模块、获取模块、检测模块、接口模块,其中多进程运行获取、检测、接口 存储模块:负责存储抓取下来的代理。保证代理不重复,标识代理的可用情况,动态实时处理每个代理(使用Redis的Sorted-Set有序集合) 获取模块:需要定时在各大代理网站抓取代理。 检测模块:需要定
阅读全文
posted @ 2018-12-11 23:45 起航追梦人
阅读(291)
评论(0)
推荐(0)
2018年11月30日
day_6:验证码识别
摘要: 一、普通图形验证码 1、相关库安装(MAC) 导入tesserocr报错和解决办法 事例测试(方法一比方法二精确度好) 如果图像识破不出来就需要先转灰度再二值化处理 处理前: 处理后: 二、极验滑动验证码(Selenium、ChromeDriver、Chrome) 三、点触验证码 四、微博宫格验证码
阅读全文
posted @ 2018-11-30 22:11 起航追梦人
阅读(330)
评论(0)
推荐(0)
爬取淘宝iPad前100页商品
摘要: 需求:爬取淘宝iPad前100页商品 分析:分析网页是动态渲染的无法用普通的方法爬取 方法: 1、查看网页源码发现g_page_config这个包含了商品信息,用正则可以爬取,具体方法省略 2、可见即可爬:selenium+chrome(PhantomJS)
阅读全文
posted @ 2018-11-30 21:54 起航追梦人
阅读(315)
评论(0)
推荐(0)
2018年11月29日
day_5:动态渲染页面爬取
摘要: 一、Selenium 1、声明浏览器对象 2、访问页面 3、查找节点 4、节点交互 5、动作链(鼠标滑动、拖拽,键盘按键等) 6、等待(页面加载过慢导致找不到节点,需要等待页面加载完成再找节点)显式等待设置的是最长等待时间,尽量使用显示等待、显等待待设置的是固定的等待时间 7、Headless模式(
阅读全文
posted @ 2018-11-29 22:49 起航追梦人
阅读(177)
评论(0)
推荐(0)
2018年11月28日
day_5:Ajax数据爬取
摘要: 浏览器调试模式下Network选项XHR筛选出Ajax请求(Request Headers的X-Requested-With:XMLHttpRequest)
阅读全文
posted @ 2018-11-28 16:28 起航追梦人
阅读(138)
评论(0)
推荐(0)
2018年11月23日
day_4:文本存储_1
摘要: TXT JSON json.loads(str)把字符串转为JSON对象 json.dumps(JSON, indent=2, ensure_ascii=False)把JSON对象转换为字符串 indent=2设置格式,2代表缩进字符数 ensure_ascii=False解决乱码 CSV CSV存
阅读全文
posted @ 2018-11-23 20:56 起航追梦人
阅读(151)
评论(0)
推荐(0)
day_3:解析
摘要: 1、XPath:from lxml import etree 选取节点(所有节点:*) 属性匹配 html.xpath('节点名称[@属性名称="属性"]') html.xpath('节点名称[contains(@属性名称, "属性")]') 多属性匹配选一匹配 如:<p class="a b">.
阅读全文
posted @ 2018-11-23 20:15 起航追梦人
阅读(140)
评论(0)
推荐(0)
猫眼电影TOP100榜
摘要: import re import requests def get_html(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safar...
阅读全文
posted @ 2018-11-23 00:56 起航追梦人
阅读(544)
评论(0)
推荐(0)
2018年11月22日
day_2:re
摘要: 常用的匹配规则 常用的匹配函数 re.match(正则表达式,匹配内容, 修饰符):从字符串开始匹配,匹配成功返回结果,失败返回None 转义符:字符串包含().\等使用\来转义或者在正则表达式前加r(原始字符串) re.search(正则表达式,匹配内容, 修饰符):匹配整个字符串,返回第一个匹配
阅读全文
posted @ 2018-11-22 18:51 起航追梦人
阅读(132)
评论(0)
推荐(0)
day_1:Requests
摘要: 常用的发出请求的方法 URL传参使用参数param:httpbin.org/get?key1=val1&key2=val2 响应内容 套接字响应内容 自定义标题 POST请求(处理表单请求) 响应状态代码r.status_code和r.raise_for_status()(当status_code=
阅读全文
posted @ 2018-11-22 01:20 起航追梦人
阅读(189)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
13
下一页
公告