Python - 随笔分类 - _cai

python-在lxml中使用XPath语法

摘要：1、获取所有li标签： from lxml import etree html = etree.parse('hello.html') print(type(html)) #显示etree.parse() 返回类型 result = html.xpath('//li') print(result) 阅读全文

posted @ 2021-04-29 15:48 _cai 阅读(234) 评论(0) 推荐(0)

爬虫之数据提取

摘要：爬取网页上的内容，如何从内容中提取数据 HTML 文档本身是结构化的文本，有一定的规则，通过它的结构可以简化信息提取。于是，就有了lxml、pyquery、BeautifulSoup等网页信息提取库。一般我们会用这些库来提取网页信息。其中，lxml 有很高的解析效率，支持 xPath 语法（一种可以阅读全文

posted @ 2021-04-28 14:59 _cai 阅读(110) 评论(0) 推荐(0)

lxml

摘要：lxml 简述：lxml是一个python库，用来处理xml和html文件，还可以用来web爬取数据安装：使用命令：pip install lxml MacOS或者Linux系统：sudo apt-get install python-lxml 以上不行则尝试使用：easy_install lx 阅读全文

posted @ 2021-04-27 17:11 _cai 阅读(623) 评论(0) 推荐(0)

_cai

随笔分类 - Python

公告