随笔分类 -  Python爬虫

摘要:理解 基本元素 from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') r = requests.get("http://python123.io/ws/demo.html") r.text '<html><hea 阅读全文
posted @ 2022-02-06 20:34 TY_uni 阅读(65) 评论(0) 推荐(0)
摘要:》》》Request库入门 Request库的7个主要方法 get() 方法 requests.get r = requests.get(url) request库的两个重要对象 Response Request 构造一个向服务器请求资源的Request对象 返回一个包含服务器资源的Response 阅读全文
posted @ 2022-02-02 23:20 TY_uni 阅读(423) 评论(0) 推荐(0)
摘要:涉及到的准备操作请移步上一篇,这里主要记录headers的获取以及每页评论真实url的获取 Requests设置请求头Headers 1.设置headers 目的 headers 是解决request请求的一种反爬机制,对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。 2.  阅读全文
posted @ 2022-01-19 23:47 TY_uni 阅读(516) 评论(0) 推荐(0)
摘要:Requests设置请求头Headers(具体操作请看下篇) 1.设置headers 目的 headers 是解决request请求的一种反爬机制,对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。 2. headers 位置 cookies作用:(保持会话)(具体操作请看下篇 阅读全文
posted @ 2022-01-19 23:41 TY_uni 阅读(65) 评论(0) 推荐(0)