文章分类 -  Spider系列

摘要:mongodb 简介 Mongodb 是目前最流行的 NoSQL 数据库之一。 CRUD 数据库操作 集合操作 文档操作 添加文档 查看文档 更改文档 删除文档 可视化工具 链接:https://robomongo.org/ pymongo 阅读全文
posted @ 2018-09-07 10:03 Yuan先生
摘要:一 scrapy框架简介 1 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据 阅读全文
posted @ 2018-08-21 10:12 Yuan先生
摘要:BeautifulSoup 一 简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 阅读全文
posted @ 2018-08-16 14:43 Yuan先生
摘要:Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 安装 1 下 阅读全文
posted @ 2018-08-11 16:01 Yuan先生
摘要:爬虫简介 概述 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。 网络爬虫,即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网, 阅读全文
posted @ 2018-08-09 15:49 Yuan先生