爬虫 - 随笔分类 - Python张梦书

爬虫之三种解析方式

摘要：1.实现标签的定位 2.将标签中的存储的文本内容或者相关的属性值进行提取正则爬虫练习之爬取糗事百科 BS4 环境安装 1.pip install BS4 2.pip install lxml 解析原理实例化一个BeautifulSoup对象，必须把即将被解析的页面源码加载到该对象中调用该对象阅读全文

posted @ 2019-05-27 22:27 Python张梦书阅读(356) 评论(0) 推荐(0)

爬虫之Selenium

摘要：简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器作用：可以让浏览器完成相关自阅读全文

posted @ 2019-05-27 22:25 Python张梦书阅读(189) 评论(0) 推荐(0)

高性能的异步爬虫

摘要：三种方式: 1.多进程多线程(不建议) 2.进程池或者线程池(适当) 3.单线程+异步协程(推荐) 多进程多线程占用cpu资源,不建议使用基于线程池的异步爬虫结果: 单线程+异步协程基本使用 task的使用 future的使用绑定回调多任务异步协程执行结果: 执行结果: 多任务异步操作阅读全文

posted @ 2019-05-27 22:23 Python张梦书阅读(2607) 评论(1) 推荐(1)

处理爬虫遇到的乱码问题

摘要：在我们爬取网页的时候,可能会遇到乱码的问题,解决这种的乱码的问题有一种通用的方法阅读全文

posted @ 2019-05-27 22:23 Python张梦书阅读(182) 评论(0) 推荐(0)

Python爬虫框架--Scrapy安装以及简单实用

摘要：scrapy框架框架 -具有很多功能且具有很强通用性的一个项目模板环境安装: 创建一个工程 scrapy startprobject proName cd proName 创建爬虫文件: scrapy genspider spiderName www.xxx.com 执行工程: 阅读全文

posted @ 2019-05-27 22:15 Python张梦书阅读(211) 评论(0) 推荐(0)

Python--网络爬虫模块requests模块之响应--response

摘要：当requests发送请求成功后，requests就会得到返回值，如果服务器响应正常，就会接收到响应数据； Response响应中的属性和方法常用属性： status_code: 数据类型：int 作用：返回HTTP响应的状态码：200、404、500、等 reason: 数据类型：str 作用：阅读全文

posted @ 2019-05-27 22:15 Python张梦书阅读(482) 评论(0) 推荐(0)

python网络爬虫之requests模块

摘要：什么是requests模块: requests模块是python中原生的基于网路请求的模块,其主要作用是用来模拟浏览器发送请求,功能强大,用法简洁高效,在爬虫的领域占半壁江山如何使用requests模块: 安装:pip install requests 使用流程: 1.指定url 2.发送请求 3 阅读全文

posted @ 2019-05-27 22:12 Python张梦书阅读(137) 评论(0) 推荐(0)

Python张梦书

随笔分类 - 爬虫

公告