随笔分类 - 爬虫
摘要:1.实现标签的定位 2.将标签中的存储的文本内容或者相关的属性值进行提取 正则 爬虫练习之爬取糗事百科 BS4 环境安装 1.pip install BS4 2.pip install lxml 解析原理 实例化一个BeautifulSoup对象,必须把即将被解析的页面源码加载到该对象中 调用该对象
阅读全文
摘要:简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 作用: 可以让浏览器完成相关自
阅读全文
摘要:三种方式: 1.多进程多线程(不建议) 2.进程池或者线程池(适当) 3.单线程+异步协程(推荐) 多进程多线程 占用cpu资源,不建议使用 基于线程池的异步爬虫 结果: 单线程+异步协程 基本使用 task的使用 future的使用 绑定回调 多任务异步协程 执行结果: 执行结果: 多任务异步操作
阅读全文
摘要:在我们爬取网页的时候,可能会遇到乱码的问题,解决这种的乱码的问题有一种通用的方法
阅读全文
摘要:scrapy框架 框架 -具有很多功能且具有很强通用性的一个项目模板 环境安装: 创建一个工程 scrapy startprobject proName cd proName 创建爬虫文件: scrapy genspider spiderName www.xxx.com 执行工程:
阅读全文
摘要:当requests发送请求成功后,requests就会得到返回值,如果服务器响应正常,就会接收到响应数据; Response响应中的属性和方法 常用属性: status_code: 数据类型:int 作用:返回HTTP响应的状态码:200、404、500、等 reason: 数据类型:str 作用:
阅读全文
摘要:什么是requests模块: requests模块是python中原生的基于网路请求的模块,其主要作用是用来模拟浏览器发送请求,功能强大,用法简洁高效,在爬虫的领域占半壁江山 如何使用requests模块: 安装:pip install requests 使用流程: 1.指定url 2.发送请求 3
阅读全文

浙公网安备 33010602011771号