随笔分类 -  python爬虫

python第三方库Requests的基本使用
摘要:Requests 是用python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 阅读全文
posted @ 2018-10-16 17:30 懵懂的小白啊 阅读(346) 评论(0) 推荐(0)
etree和Beautiful Soup的使用
摘要:1.lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ,支持 XPath (XML Path Language),使用 lxml 的 etree 库来进行爬取网站信息 2.Beautiful Soup支持从HTML或XML文件中提取数据的Python库;支持Python标准库中的HTML解析器;还支持一些第三方的解析器lxml, 使用的是 Xpath 语法 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。 阅读全文
posted @ 2018-10-15 12:16 懵懂的小白啊 阅读(3323) 评论(0) 推荐(0)
python中使用tabula爬取pdf数据并导出表格
摘要:Tabula是专门用来提取PDF表格数据的,同时支持PDF导出CSV、Excel格式,我们可以利用它爬取需求数据,并以表格形式更好的呈现出来。 阅读全文
posted @ 2018-09-11 22:02 懵懂的小白啊 阅读(12438) 评论(0) 推荐(1)
爬取猫眼电影TOP100
摘要:本文所讲的爬虫项目实战属于基础、入门级别,使用的是Python3.5实现的。 本项目基本目标:在猫眼电影中把top100的电影名,排名,海报,主演,上映时间,评分等爬取下来 爬虫原理和步骤 爬虫,就是从网页中爬取自己所需要的东西,如文字、图片、视频等,这样我们就需要读取网页,然后获取网页源代码,从源 阅读全文
posted @ 2018-09-05 16:17 懵懂的小白啊 阅读(1541) 评论(0) 推荐(0)