随笔分类 -  爬虫

爬虫学习阅读目录
摘要:一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文
posted @ 2019-11-28 21:24 只会玩辅助 阅读(872) 评论(0) 推荐(0)
摘要:一、简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库(非关系型数据库) 1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。 不采用关系型主要是为了获得更好得扩展性。当然还有一些其他好处,与关系数据库相比,面向文档的数据库不再有“ 阅读全文
posted @ 2019-11-28 19:53 只会玩辅助 阅读(322) 评论(0) 推荐(0)
摘要:一、介绍 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库。 #安装Beautiful Soup pip install beautifulsoup4 #安装解析器 Beatiful Soup支持python标准库中的HTML解析器,还支持一些第三方的解析器,其 阅读全文
posted @ 2019-11-26 19:45 只会玩辅助 阅读(289) 评论(0) 推荐(0)
摘要:一、介绍 介绍:使用requests可以模拟浏览器的请求,比之前的urllib库使用更加方便 注意:requests库发送请求将网页内容下载下来之后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 安装:pip install requests 常用的请求方式:requ 阅读全文
posted @ 2019-11-25 20:08 只会玩辅助 阅读(549) 评论(0) 推荐(0)
摘要:爬虫目录 (一)爬虫的基本流程 (二)爬虫请求库之requests库 (三)爬虫解析库beautifulsoup (四)爬虫请求库之selenium (五) 存储库之MongoDB (六)Scrapy框架 阅读全文
posted @ 2019-11-25 15:23 只会玩辅助 阅读(190) 评论(0) 推荐(0)