Python 爬虫学习日记（一）

1.获取网页

1 import urllib.request
2 url='https://........'#网页地址
3 response = urllib.result.urlopen(url)
4 html=response.read().decode('utf-8')
5 print(html)

获得的response是HTTPResponse类型的对象

import urllib.request
url='https://......'#网页地址

headers={'User-Agent':'..........'}

request=urllib.request.Request(url=url,headers=headers)

html=request.read().decode('utf-8')
print(html)

requests库的使用

import requests
url='.......'
headers={'User-Agent':'........'}
re=requests.get(url=url,headers=headers)
html=re.text
print(html)

注意输出的html的编码格式要与网页的编码格式一致

2.提取信息

正则表达式

xpath的使用

from lxml import etree

htmls=etree.HTML(html)

result=htmls.xpath('//标签名字//标签名字//目标标签')

#若有多个标签名字重复，可利用   //标签名[@属性='属性值’]  来匹配标签，若使用多个属性匹配时可以用逻辑运算符 ： and 和or 等等

#获取标签属性 ： //标签名/@属性名字
#也可以按序选择://li[1]表示标签名字为li的第一个节点
print(result)

posted @ 2020-09-27 19:01 饮酒六两三阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

饮酒六两三

Python 爬虫学习日记 （一）

公告

Python 爬虫学习日记（一）