文章分类 -  爬虫相关

爬虫爬写的好,牢房吃的饱
摘要:7 scrapy介绍 # 前面学的都是模块,做专业的爬虫,可以使用框架 (django:web) scrapy:爬虫框架 -做爬虫用的东西,都封装好了,只需要在固定的位置写固定的代码即可 # scrapy 号称爬虫界的djagno -django 大而全,做web相关的它都用 -scrapy 大而全 阅读全文
posted @ 2022-12-11 20:22 懒羊羊A 阅读(86) 评论(0) 推荐(0)
摘要:0 requests高级用法 0.1 ssl认证(了解) # https 和http有什么区别 -https=http+ssl/tsl 证书 # 没有被认证过的机构,签发的证书,用的时候,浏览器会提示不安全 # 1 ssl认证 # 1.1 不认证证书了 # import requests # res 阅读全文
posted @ 2022-12-08 19:09 懒羊羊A 阅读(118) 评论(0) 推荐(0)
摘要:1 xpath的使用 # html中选择标签,可以使用的通用方式 -css选择 -xpath选择 -XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言 # 语法的简单介绍 -nodename 选取此节点的所有子节点 -/ 从根节点选取 / 阅读全文
posted @ 2022-12-06 20:26 懒羊羊A 阅读(134) 评论(0) 推荐(0)
摘要:梨视频案例 import requests from bs4 import BeautifulSoup # 代理池获取一个ip地址 res = requests.get('http://127.0.0.1:10000/get/').json() if res['https']: http = 'ht 阅读全文
posted @ 2022-11-24 18:17 懒羊羊A 阅读(37) 评论(0) 推荐(0)
摘要:爬虫介绍 # 爬虫:spider,网络蜘蛛 # 本质原理: -现在所有的软件原理:大部分都是基于http请求发送和获取数据的 -pc端的网页 -移动端app -模拟发送http请求,从别人的服务端获取数据 -绕过反扒:不同程序反扒措施不一样,比较复杂 # 爬虫原理 -发送http请求【request 阅读全文
posted @ 2022-11-23 21:30 懒羊羊A 阅读(246) 评论(0) 推荐(0)