摘要: selenium 概念:基于浏览器自动化的一个模块。 环境的安装: pip install selenium selenium和爬虫之间的关联: 模拟登录 便捷的捕获到动态加载的数据(重点) 特点:可见及可得 缺点:效率低 selenium的具体使用 准备浏览器的驱动程序:http://chrome 阅读全文
posted @ 2019-12-06 21:55 adrian-boy 阅读(223) 评论(0) 推荐(0)
摘要: 开启线程池: 线程池 asyncio 特殊的函数 协程 任务对象 任务对象绑定 事件循环 from multiprocessing.dummy import Pool map(func,alist): 可以让func回调函数处理alist中的每一个列表元素,这个处理的过程是基于异步。 In [7]: 阅读全文
posted @ 2019-12-06 21:46 adrian-boy 阅读(766) 评论(0) 推荐(0)
摘要: 爬取js加密和混淆的例子 url:https://www.aqistudy.cn/html/city_detail.html 分析: 1.点击不同气象指标的选项卡,发现没有相关的请求发送,说明当页面加载出来的时候,所有的气象数据已经加载完毕。 2.数据是否为动态加载 数据是动态加载出来的 3.修改查 阅读全文
posted @ 2019-12-06 21:15 adrian-boy 阅读(357) 评论(0) 推荐(0)
摘要: 对 js加密数据进行爬取和解密 分析: 爬取的数据是动态加载 并且我们进行了抓包工具的全局搜索,没有查找到结果 意味着:爬取的数据从服务端请求到的是加密的密文数据 页面每10s刷新一次,刷新后发现数据更新,但是浏览器地址栏的url没有变,说明加载出的数据是由ajax请求到的。 动态加载出来的数据是由 阅读全文
posted @ 2019-12-06 18:18 adrian-boy 阅读(1950) 评论(0) 推荐(0)