python第三方库Requests的基本使用
摘要:Requests 是用python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib
阅读全文
posted @
2018-10-16 17:30
懵懂的小白啊
阅读(346)
推荐(0)
etree和Beautiful Soup的使用
摘要:1.lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ,支持 XPath (XML Path Language),使用 lxml 的 etree 库来进行爬取网站信息
2.Beautiful Soup支持从HTML或XML文件中提取数据的Python库;支持Python标准库中的HTML解析器;还支持一些第三方的解析器lxml, 使用的是 Xpath 语法
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
阅读全文
posted @
2018-10-15 12:16
懵懂的小白啊
阅读(3323)
推荐(0)
python中使用tabula爬取pdf数据并导出表格
摘要:Tabula是专门用来提取PDF表格数据的,同时支持PDF导出CSV、Excel格式,我们可以利用它爬取需求数据,并以表格形式更好的呈现出来。
阅读全文
posted @
2018-09-11 22:02
懵懂的小白啊
阅读(12438)
推荐(1)
爬取猫眼电影TOP100
摘要:本文所讲的爬虫项目实战属于基础、入门级别,使用的是Python3.5实现的。 本项目基本目标:在猫眼电影中把top100的电影名,排名,海报,主演,上映时间,评分等爬取下来 爬虫原理和步骤 爬虫,就是从网页中爬取自己所需要的东西,如文字、图片、视频等,这样我们就需要读取网页,然后获取网页源代码,从源
阅读全文
posted @
2018-09-05 16:17
懵懂的小白啊
阅读(1541)
推荐(0)