摘要: 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图 阅读全文
posted @ 2020-10-14 21:22 遥月 阅读(2851) 评论(0) 推荐(0)
摘要: requests是python实现的最简单易用的HTTP库,建议爬虫使用requests import requests url = "https://api.github.com/events" 获取某个网页 import requests r = requests.get("https://ap 阅读全文
posted @ 2020-10-14 21:05 遥月 阅读(1133) 评论(0) 推荐(0)
摘要: #coding=utf-8 #防止报错:UnicodeEncodeError: 'gbk' codec can't encode character from pyquery import PyQuery as pq from lxml import etree 可加载一段HTML字符串,或一个HT 阅读全文
posted @ 2020-10-14 20:39 遥月 阅读(157) 评论(0) 推荐(0)
摘要: 一、初始化 from bs4 import BeautifulSoup soup = BeautifulSoup("<html>A Html Text</html>", "html.parser") 两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html 阅读全文
posted @ 2020-10-14 11:26 遥月 阅读(7653) 评论(0) 推荐(0)
摘要: 三、利用ElementTree解析XML Python标准库中,提供了ET的两种实现。一个是纯Python实现的xml.etree.ElementTree,另一个是速度更快的C语言实现xml.etree.cElementTree。请记住始终使用C语言实现,因为它的速度要快很多,而且内存消耗也要少很多 阅读全文
posted @ 2020-10-14 10:35 遥月 阅读(455) 评论(0) 推荐(0)