Python 爬虫学习日记 (一)
1.获取网页
1 import urllib.request 2 url='https://........'#网页地址 3 response = urllib.result.urlopen(url) 4 html=response.read().decode('utf-8') 5 print(html)
获得的response是HTTPResponse类型的对象
import urllib.request url='https://......'#网页地址 headers={'User-Agent':'..........'} request=urllib.request.Request(url=url,headers=headers) html=request.read().decode('utf-8') print(html)
requests库的使用
import requests url='.......' headers={'User-Agent':'........'} re=requests.get(url=url,headers=headers) html=re.text print(html)
注意输出的html的编码格式要与网页的编码格式一致
2.提取信息
正则表达式
xpath的使用
from lxml import etree htmls=etree.HTML(html) result=htmls.xpath('//标签名字//标签名字//目标标签') #若有多个标签名字重复,可利用 //标签名[@属性='属性值’] 来匹配标签,若使用多个属性匹配时可以用逻辑运算符 : and 和or 等等 #获取标签属性 : //标签名/@属性名字 #也可以按序选择://li[1]表示标签名字为li的第一个节点 print(result)

浙公网安备 33010602011771号