python爬虫 - 随笔分类 - 懵懂的小白啊

python第三方库Requests的基本使用

摘要：Requests 是用python语言编写，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 阅读全文

posted @ 2018-10-16 17:30 懵懂的小白啊阅读(346) 评论(0) 推荐(0)

etree和Beautiful Soup的使用

摘要：1.lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ，支持 XPath (XML Path Language)，使用 lxml 的 etree 库来进行爬取网站信息 2.Beautiful Soup支持从HTML或XML文件中提取数据的Python库；支持Python标准库中的HTML解析器；还支持一些第三方的解析器lxml, 使用的是 Xpath 语法 Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。阅读全文

posted @ 2018-10-15 12:16 懵懂的小白啊阅读(3323) 评论(0) 推荐(0)

python中使用tabula爬取pdf数据并导出表格

摘要：Tabula是专门用来提取PDF表格数据的，同时支持PDF导出CSV、Excel格式，我们可以利用它爬取需求数据，并以表格形式更好的呈现出来。阅读全文

posted @ 2018-09-11 22:02 懵懂的小白啊阅读(12438) 评论(0) 推荐(1)

爬取猫眼电影TOP100

摘要：本文所讲的爬虫项目实战属于基础、入门级别，使用的是Python3.5实现的。本项目基本目标：在猫眼电影中把top100的电影名，排名，海报，主演，上映时间，评分等爬取下来爬虫原理和步骤爬虫，就是从网页中爬取自己所需要的东西，如文字、图片、视频等，这样我们就需要读取网页，然后获取网页源代码，从源阅读全文

posted @ 2018-09-05 16:17 懵懂的小白啊阅读(1541) 评论(0) 推荐(0)

随笔分类 - python爬虫