摘要: 数据解析 聚焦爬虫:在通用爬虫的基础之上,可以将一张页面中局部指定的数据进行爬取。可以通过数据解析的方式将一张页面中局部的数据进行解析或者提取。 数据解析方式: 正则 bs4 xpath(重点) pyquery 聚焦爬虫编码流程: 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析的 阅读全文
posted @ 2023-02-04 13:15 一头钻进被窝里 阅读(152) 评论(0) 推荐(0)
摘要: requests基本操作 requests作用: 就是一个基于网络请求的模块,可以用来模拟浏览器发请求。 环境安装: pip install requests requests模块的使用流程: 指定一个字符串形式url 发起请求 获取响应数据 持久化存储 #需求:爬取搜狗首页的页面源码数据 impo 阅读全文
posted @ 2023-01-31 13:03 一头钻进被窝里 阅读(63) 评论(0) 推荐(0)
摘要: 什么是爬虫 通过编写程序,让其模拟浏览器上网,然后去互联网上爬取数据的过程 关键字: 模拟:所谓的浏览器就是一款纯天然爬虫工具。 爬取: 抓取到一张页面的一整张数据 抓取页面中的局部数据 爬虫在使用场景中的分类? 通用爬虫 需要将一整张数据进行爬取 聚焦爬虫 需要将页面中局部的指定数据进行爬取 关联 阅读全文
posted @ 2023-01-30 16:54 一头钻进被窝里 阅读(48) 评论(0) 推荐(0)
摘要: Docker官网:https://docs.docker.com/ Docker的github地址:https://github.com/moby/moby Dockerhub官网 https://registry.hub.docker.com 如果docker官方registry拉取镜像速度很慢, 阅读全文
posted @ 2022-12-21 11:32 一头钻进被窝里 阅读(663) 评论(0) 推荐(0)