爬虫相关 - 文章分类 - 懒羊羊A

scrapy框架

摘要：7 scrapy介绍 # 前面学的都是模块，做专业的爬虫，可以使用框架 (django:web) scrapy:爬虫框架 -做爬虫用的东西，都封装好了，只需要在固定的位置写固定的代码即可 # scrapy 号称爬虫界的djagno -django 大而全，做web相关的它都用 -scrapy 大而全阅读全文

posted @ 2022-12-11 20:22 懒羊羊A 阅读(86) 评论(0) 推荐(0)

代理池搭建和使用代理解析库bs4使用

摘要：0 requests高级用法 0.1 ssl认证(了解) # https 和http有什么区别 -https=http+ssl/tsl 证书 # 没有被认证过的机构，签发的证书，用的时候，浏览器会提示不安全 # 1 ssl认证 # 1.1 不认证证书了 # import requests # res 阅读全文

posted @ 2022-12-08 19:09 懒羊羊A 阅读(118) 评论(0) 推荐(0)

爬虫选择器使用selenium

摘要：1 xpath的使用 # html中选择标签，可以使用的通用方式 -css选择 -xpath选择 -XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言 # 语法的简单介绍 -nodename 选取此节点的所有子节点 -/ 从根节点选取 / 阅读全文

posted @ 2022-12-06 20:26 懒羊羊A 阅读(134) 评论(0) 推荐(0)

爬虫视频案例图片案例

摘要：梨视频案例 import requests from bs4 import BeautifulSoup # 代理池获取一个ip地址 res = requests.get('http://127.0.0.1:10000/get/').json() if res['https']: http = 'ht 阅读全文

posted @ 2022-11-24 18:17 懒羊羊A 阅读(37) 评论(0) 推荐(0)

爬虫发送请求

摘要：爬虫介绍 # 爬虫：spider，网络蜘蛛 # 本质原理： -现在所有的软件原理：大部分都是基于http请求发送和获取数据的 -pc端的网页 -移动端app -模拟发送http请求，从别人的服务端获取数据 -绕过反扒：不同程序反扒措施不一样，比较复杂 # 爬虫原理 -发送http请求【request 阅读全文

posted @ 2022-11-23 21:30 懒羊羊A 阅读(246) 评论(0) 推荐(0)

晚安

talk is cheap show me the code

文章分类 - 爬虫相关

公告