Python 爬虫学习日记 (一)

1.获取网页

1 import urllib.request
2 url='https://........'#网页地址
3 response = urllib.result.urlopen(url)
4 html=response.read().decode('utf-8')
5 print(html)

获得的response是HTTPResponse类型的对象

import urllib.request
url='https://......'#网页地址

headers={'User-Agent':'..........'}

request=urllib.request.Request(url=url,headers=headers)

html=request.read().decode('utf-8')
print(html)

requests库的使用

import requests
url='.......'
headers={'User-Agent':'........'}
re=requests.get(url=url,headers=headers)
html=re.text
print(html)

注意输出的html的编码格式要与网页的编码格式一致

2.提取信息

正则表达式

 

xpath的使用

from lxml import etree

htmls=etree.HTML(html)

result=htmls.xpath('//标签名字//标签名字//目标标签')

#若有多个标签名字重复,可利用   //标签名[@属性='属性值’]  来匹配标签,若使用多个属性匹配时可以用逻辑运算符 : and 和or 等等

#获取标签属性 : //标签名/@属性名字
#也可以按序选择://li[1]表示标签名字为li的第一个节点
print(result)

 

posted @ 2020-09-27 19:01  饮酒六两三  阅读(56)  评论(0)    收藏  举报