Python爬虫学习笔记（六）——BeautifulSoup和pyquery的使用

介绍

BeautifulSoup和pyquery都是用来解析html的库，与昨天学的XPath有很多相似之处，因此就将这两个库放在一起学习

BeautifulSoup库

基本用法

from bs4 import BeautifulSoup

html = #略
# 初始化BeautifulSoup，第二个参数表示解释器为lxml
soup = BeautifulSoup(html, 'lxml')
# prettify()方法可以标准化html的缩进格式
print(soup.prettify())
#

节点选择器

直接调用节点的名称就可以选择节点元素，例如soup.div就是选择第一个div节点
经过选择器选择后，选择结果都是bs4.element.Tag类型，这是这个库里一个重要的数据结构
Tag类型同样可以继续调用节点进行下一步的选择，例如soup.div.ul，也就是说可以嵌套选择，选择后的结果依然是Tag类型

关于Tag类，有几个常用的属性介绍一下

# 节点的文本内容
soup.div.string
# 节点的名称
soup.div.name
# 节点的属性
soup.div.attrs

其中string和name都是str类型，而attrs是dict类型，因为节点可能会有多个属性。
属性的类型也不一定都是str类型，有的返回结果是字符串组成的列表，例如class属性，一个节点元素可能有多个class。

此外，再介绍一下如何选中关联节点。

# 子节点，返回结果是列表形式，包含节点和文本
soup.p.contents
# 子节点，返回结果是生成器，需要遍历输出
soup.p.children
# 子孙节点，返回结果是生成器，需要遍历输出
soup.p.descendants
# 父节点
soup.p.parent
# 祖先节点
soup.p.parents
# 兄弟节点
## 后一个兄弟节点
soup.p.next_sibling
## 后面的所有兄弟节点
soup.p.next_siblings
## 前一个兄弟节点
soup.p.previous_sibling
## 前面的所有兄弟节点
soup.p.previous_siblings

这些关联节点返回不全是Tag类型，但是有相同的属性，所以可以用相同的方式查询属性

方法选择器

find_all()
这个方法的API如下：find_all(name, attrs, recursive, text, **kwargs)
第一个属性是节点名，返回结果是列表类型，其元素是Tag类型
第二个是属性，返回结果是列表类型，其元素是Tag类型
第三个是文本，传入类型可以是字符串，也可以是正则表达式对象，返回结果是列表类型，其元素是str类型
find()
返回单个元素，其余类似find_all()方法
find_parents()和find_parent()
find_next_siblings()和find_next_sibling()
find_previous_siblings()和find_previous_sibling()

pyquery库

关于BeautifulSoup，其实还有CSS选择器部分没介绍，但是pyquery的CSS选择器更加强大，因此就直接介绍pyquery吧

初始化

类似于bs，初始化pyquery的时候，也需要传入HTML来初始化一个PyQuery对象。它的初始化方式有多种，可以直接传入字符串，可以传入URL，可以传入HTML文件等

from pyquery import PyQuery as pq

doc = pq(html)
doc = pq(url='https://cuiqingcai.com')
doc = pq(filename='deme.html')

查找节点

# 选取class为list的节点
items = doc('.list')
# 子节点
lis = items.children()
# class为active的子节点
lis = items.children('.active')
# 传入CSS选择器，选取为li的子孙节点
lis = items.find('li')
# 父节点
lis = items.parent()
# 祖先节点，如果需要筛选，也可以传入CSS选择器
container = items.parents()
# 兄弟节点
lis = ltems.siblings()

遍历

pyquery的选择结果可能是多个节点，类型都是PyQuery类型，所以需要遍历来获取。这时候需要调用item()方法

lis = doc('li').item()
for li in lis:
    print(li)

获取信息

类似于bs，这里用attrs()来获取属性，用text()来获取文本
但如果想获取HTML文本，需要调用html()方法

节点操作

pyquery提供了一系列方法来对节点进行动态修改，这里就介绍一些常用的方法

li = doc('item-0.active')
# 删除class属性
li.removeClass('active')
# 添加class属性
li.addClass('active')
# 改变属性
li.attr('name', 'link')
# 改变文本内容
li.text(str)
# 改变html
li.html(html)
# 移除节点
li.remove()

伪类选择器

# 第一个li节点
li = doc('li:first-hild')
# 最后一个li节点
li = doc('li:last-child')
# 第二个li节点
li = doc('li:nth-child(2)')
# 第三个li之后的li节点
li = doc('li:gt(2)')
# 偶数位置的li节点
li = doc('li:nth-child(2n)')
# 包含second文本的li节点
li = doc('li:contains(second)')

总结

关于HTML解析库的内容，基本上就全部介绍完了，通过这些内容，基本可以解决HTML的解析了。
接下来打算跳过书本的第五章，直接学习ajax的有关内容，因为接下来打算做一个和淘宝有关的项目，需要了解动态加载的内容。

posted @ 2018-09-06 16:50 HackHarry 阅读(2191) 评论(0) 收藏举报

刷新页面返回顶部

HackHarry

Python爬虫学习笔记（六）——BeautifulSoup和pyquery的使用

介绍

BeautifulSoup库

pyquery库

总结

公告