随笔分类 -  爬虫

摘要:什么是框架--就是一个集成了很多功能并且具有很强通用性的一个项目模板如何学习框架--专门学习框架封装的各种功能的详细用法什么是scrapy--爬虫中封装好的一个明星框架scrapy功能:--高性能的持久化存储,异步的数据下载,高性能的数据分析,分布式 scrapy框架的基本使用环境安装--pip i 阅读全文
posted @ 2022-06-30 16:04 昌尐 阅读(47) 评论(0) 推荐(0)
摘要:selenium模块使用selenium模块和爬虫之间具有怎样的关联--便捷的获取网站中动态加载的数据--便捷实现模拟登录 什么是selenium模块--基于浏览器自动化的一个模块 selenium使用流程:--环境安装: pip install selenium--下载一个浏览器的驱动程序 --下 阅读全文
posted @ 2022-06-21 16:23 昌尐 阅读(117) 评论(0) 推荐(0)
摘要:编码流程:--指定url--发起请求--获取响应数据--数据解析--持久化存储 数据解析的原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储1、进行指定的标签的定位2、标签或者标签对应的属性中存储的数据值进行提取(解析) 数据解析分类:re解析bs4解析xpath解析 impo 阅读全文
posted @ 2022-04-13 14:10 昌尐 阅读(487) 评论(0) 推荐(0)
摘要:正则语法:使用元字符进行排列组合用来匹配字符串常用元字符 . 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线\s 匹配任意的空白字符\d 匹配数字\n 匹配一个换行符\t 匹配制表符 ^ 匹配字符串的开始$ 匹配字符串的结尾 \W 匹配非字母或者数字或下划线\D 匹配非数字\S 匹配非空白符 阅读全文
posted @ 2021-11-09 22:28 昌尐 阅读(33) 评论(0) 推荐(0)
摘要:爬虫通过编写程序,模拟浏览器上网,然后让其去互联网上来抓取数据的过程 爬虫在使用场景中的分类通用爬虫 抓取系统重要组成部分,抓取的是一整张页面的数据聚焦爬虫 是建立在通用爬虫的基础之上,抓取的是网页中特定的局部内容增量爬虫 检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据 web请求过程 阅读全文
posted @ 2021-11-06 12:03 昌尐