摘要: Scrapy爬虫框架 发送请求 > 获取响应数据 > 解析数据 > 保存数据 Scarpy框架介绍 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列 阅读全文
posted @ 2019-06-21 20:09 走投无路只能来敲敲代码 阅读(102) 评论(0) 推荐(0) 编辑
摘要: bp4解析库 pip3 install beautifulsoup4 # 安装bs4pip3 install lxml # 下载lxml解析器 遍历文档树: 1、直接使用 2、获取标签的名称 3、获取标签的属性 4、获取标签的内容 5、嵌套选择 6、子节点、子孙节点 7、父节点、祖先节点 8、兄弟节 阅读全文
posted @ 2019-06-20 19:57 走投无路只能来敲敲代码 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 破解极验滑动验证 博客园登录url: https://account.cnblogs.com/signin?returnUrl=https%3A%2F%2Fwww.cnblogs.com%2F 代码逻辑: 1、输入用户名与密码,并点击登录 2、弹出滑动验证,获取有缺口与完整的图片 3、通过像素点进行 阅读全文
posted @ 2019-06-19 14:43 走投无路只能来敲敲代码 阅读(281) 评论(0) 推荐(0) 编辑
摘要: selenium操作 点击、清除操作 获取cookies 选项卡管理:切换选项卡,有js的方式windows.open,有windows快捷键: ActionChangs动作链 前进、后退 破解登录 步骤: 1、打开文件的查看,显示隐藏文件 2、找到C:\Users\administortra\Ap 阅读全文
posted @ 2019-06-18 20:58 走投无路只能来敲敲代码 阅读(191) 评论(0) 推荐(0) 编辑
摘要: Response响应 证书验证(大部分网站都是https) 超时设置 代理设置:先发送请求给代理,然后由代理帮忙发送(封ip是常见的事情) 认证设置 打印结果: { "message": "Requires authentication", "documentation_url": "https:/ 阅读全文
posted @ 2019-06-17 18:19 走投无路只能来敲敲代码 阅读(270) 评论(0) 推荐(1) 编辑
摘要: 作者:Yupeng Jiang 伦敦大学学院 数学系 (英国顶尖大学,2018 QS世界大学排名中位列世界第7名,英国第3名) email:yupeng.jiang.13atcl.ac.uk 2016年6月5日 [课件来自] https://zhuanlan.zhihu.com/p/21332075 阅读全文
posted @ 2019-06-16 22:27 走投无路只能来敲敲代码 阅读(531) 评论(0) 推荐(0) 编辑
摘要: 爬虫原理: 模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。 爬虫的全过程: 1、发送请求 (请求库) - requests模块 - selenium模块 2、获取响应数据(服务器返回) 3、解析并提取数据(解析库) - re正则 - 阅读全文
posted @ 2019-06-14 19:52 走投无路只能来敲敲代码 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 爬虫练习 基于urllib实现 import urllib.request import re url="https://www.zhihu.com/question/21100397" # 我们要爬取图片的地址 page = urllib.request.urlopen(url) # 第一行 打开 阅读全文
posted @ 2019-06-13 19:08 走投无路只能来敲敲代码 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 字符串的操作 # 字符串的操作 str1 = 'my name is xxx, my age is 18。' # 优先掌握的操作: # 1、按索引取值(正向取+反向取) :只能取 print(str1[3]) # 2、切片(顾头不顾尾,步长) print(str1[3:7]) # 3 - (7-1) 阅读全文
posted @ 2019-06-11 20:11 走投无路只能来敲敲代码 阅读(149) 评论(0) 推荐(0) 编辑