web爬虫 - 随笔分类(第2页) - 懒惰的小松鼠

第十节：Web爬虫之数据存储与MySQL8.0数据库安装和数据插入

摘要：用解析器解析出数据之后，接下来就是存储数据了，保存的形式可以多种多样，最简单的形式是直接保存为文本文件，如 TXT、JSON、csv 另外，还可以保存到数据库中，如关系型数据库MySQL ，非关系型数据库 MongoDB、Redis等 1、TXT、JSON、csv 数据存储: 2、MySQL数据存储阅读全文

posted @ 2019-03-16 22:04 懒惰的小松鼠阅读(387) 评论(0) 推荐(0)

第九节：web爬虫之urllib（五）

摘要：第四个模块 robotparser：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。阅读全文

posted @ 2019-03-16 12:25 懒惰的小松鼠阅读(115) 评论(0) 推荐(0)

第八节：web爬虫之urllib（四）

摘要：第三个模块parse ：是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。阅读全文

posted @ 2019-03-16 12:23 懒惰的小松鼠阅读(107) 评论(0) 推荐(0)

第七节：web爬虫之urllib（三）

摘要：第二个模块 error ：即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。阅读全文

posted @ 2019-03-16 12:22 懒惰的小松鼠阅读(100) 评论(0) 推荐(0)

第六节：web爬虫之urllib（二）

摘要：二、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None) 简介：urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利阅读全文

posted @ 2019-03-16 12:18 懒惰的小松鼠阅读(135) 评论(0) 推荐(0)

第五节：web爬虫之urllib（一）

摘要：一、urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 简介：urllib.request.urlopen()函数用于实现对目标ur 阅读全文

posted @ 2019-03-16 12:16 懒惰的小松鼠阅读(196) 评论(0) 推荐(0)

第四节：Web爬虫之pyquery解析库

摘要：PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。阅读全文

posted @ 2019-03-16 12:15 懒惰的小松鼠阅读(122) 评论(0) 推荐(0)

第三节：Web爬虫之BeautifulSoup解析库

摘要：Beautiful Soup官方说明： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转阅读全文

posted @ 2019-03-15 18:25 懒惰的小松鼠阅读(185) 评论(0) 推荐(0)

第二节：web爬虫之lxml解析库

摘要：lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。阅读全文

posted @ 2019-01-19 16:39 懒惰的小松鼠阅读(181) 评论(0) 推荐(0)

第一节：web爬虫之requests

摘要：Requests库是用Python编写的，并且Requests是一个优雅而简单的Python HTTP库，在使用Requests库时更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。阅读全文

posted @ 2019-01-19 16:32 懒惰的小松鼠阅读(168) 评论(0) 推荐(0)

懒惰的小松鼠

随笔分类 - web爬虫

公告