2019 年 3月随笔档案 - 懒惰的小松鼠

第十五节：Web爬虫之selenium动态渲染爬取

摘要：selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的阅读全文

posted @ 2019-03-28 15:47 懒惰的小松鼠阅读(164) 评论(0) 推荐(0)

第十四节：Web爬虫之Ajax数据爬取

摘要：有时候在爬取数据的时候我们需要手动向上滑一下，网页才加载一定量的数据，但是网页的url并没有发生变化，这时我们就要考虑使用ajax进行数据爬取了。。。阅读全文

posted @ 2019-03-28 15:38 懒惰的小松鼠阅读(232) 评论(0) 推荐(0)

第十三节：web爬虫之Redis数据存储

摘要：下面仅仅展示Redis的set()集合存储，并不完整，后期会对Redis进行全面的介绍。。。。此时数据已经存储到Redis当中阅读全文

posted @ 2019-03-28 15:34 懒惰的小松鼠阅读(387) 评论(0) 推荐(0)

第十二节：Web爬虫之MongoDB数据库安装与数据存储

摘要：MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较阅读全文

posted @ 2019-03-17 17:46 懒惰的小松鼠阅读(194) 评论(0) 推荐(0)

第十一节：Web爬虫之数据存储（数据更新、删除、查询）

摘要：接着上一节的内容 5、MySQL数据更新结果是将id=3的name进行更新操作，结果如下： 6、MySQL数据去重及更新结果是判断数据是否有重复的，如果有重复的将不再存储，若没有重复的就更新数据进行插入操作，最后两行数据与红色框起来的数据有相同的，故之存储了最后两行数据，结果如下： 7、MyS 阅读全文

posted @ 2019-03-17 11:38 懒惰的小松鼠阅读(612) 评论(0) 推荐(0)

第十节：Web爬虫之数据存储与MySQL8.0数据库安装和数据插入

摘要：用解析器解析出数据之后，接下来就是存储数据了，保存的形式可以多种多样，最简单的形式是直接保存为文本文件，如 TXT、JSON、csv 另外，还可以保存到数据库中，如关系型数据库MySQL ，非关系型数据库 MongoDB、Redis等 1、TXT、JSON、csv 数据存储: 2、MySQL数据存储阅读全文

posted @ 2019-03-16 22:04 懒惰的小松鼠阅读(387) 评论(0) 推荐(0)

第九节：web爬虫之urllib（五）

摘要：第四个模块 robotparser：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。阅读全文

posted @ 2019-03-16 12:25 懒惰的小松鼠阅读(114) 评论(0) 推荐(0)

第八节：web爬虫之urllib（四）

摘要：第三个模块parse ：是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。阅读全文

posted @ 2019-03-16 12:23 懒惰的小松鼠阅读(106) 评论(0) 推荐(0)

第七节：web爬虫之urllib（三）

摘要：第二个模块 error ：即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。阅读全文

posted @ 2019-03-16 12:22 懒惰的小松鼠阅读(100) 评论(0) 推荐(0)

第六节：web爬虫之urllib（二）

摘要：二、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None) 简介：urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利阅读全文

posted @ 2019-03-16 12:18 懒惰的小松鼠阅读(135) 评论(0) 推荐(0)

第五节：web爬虫之urllib（一）

摘要：一、urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 简介：urllib.request.urlopen()函数用于实现对目标ur 阅读全文

posted @ 2019-03-16 12:16 懒惰的小松鼠阅读(196) 评论(0) 推荐(0)

第四节：Web爬虫之pyquery解析库

摘要：PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。阅读全文

posted @ 2019-03-16 12:15 懒惰的小松鼠阅读(122) 评论(0) 推荐(0)

第十节：numpy之数组文件操作

摘要：1、安装ipython 2、创建txt文件 3、直接上代码：阅读全文

posted @ 2019-03-15 18:45 懒惰的小松鼠阅读(123) 评论(0) 推荐(0)

第三节：Web爬虫之BeautifulSoup解析库

摘要：Beautiful Soup官方说明： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转阅读全文

posted @ 2019-03-15 18:25 懒惰的小松鼠阅读(185) 评论(0) 推荐(0)

懒惰的小松鼠

03 2019 档案

公告