摘要:
爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图 阅读全文
posted @ 2020-10-14 21:22
遥月
阅读(2851)
评论(0)
推荐(0)
摘要:
requests是python实现的最简单易用的HTTP库,建议爬虫使用requests import requests url = "https://api.github.com/events" 获取某个网页 import requests r = requests.get("https://ap 阅读全文
posted @ 2020-10-14 21:05
遥月
阅读(1133)
评论(0)
推荐(0)
摘要:
#coding=utf-8 #防止报错:UnicodeEncodeError: 'gbk' codec can't encode character from pyquery import PyQuery as pq from lxml import etree 可加载一段HTML字符串,或一个HT 阅读全文
posted @ 2020-10-14 20:39
遥月
阅读(157)
评论(0)
推荐(0)
摘要:
一、初始化 from bs4 import BeautifulSoup soup = BeautifulSoup("<html>A Html Text</html>", "html.parser") 两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html 阅读全文
posted @ 2020-10-14 11:26
遥月
阅读(7653)
评论(0)
推荐(0)
摘要:
三、利用ElementTree解析XML Python标准库中,提供了ET的两种实现。一个是纯Python实现的xml.etree.ElementTree,另一个是速度更快的C语言实现xml.etree.cElementTree。请记住始终使用C语言实现,因为它的速度要快很多,而且内存消耗也要少很多 阅读全文
posted @ 2020-10-14 10:35
遥月
阅读(455)
评论(0)
推荐(0)

浙公网安备 33010602011771号