TOP
摘要: Spiders - 爬虫文件 概念 介绍 由一系列定义了一个网址或一组网址类如何被爬取的类组成 具体包括如何执行爬取任务并且如何从页面中提取结构化的数据。 简单来说就是帮助你爬取数据的地方 内部行为流程 初始请求以及默认回调 生成初始的 Requests 来爬取第一个URLS,并且标识一个回调函数, 阅读全文
posted @ 2019-02-09 05:46 羊驼之歌 阅读(711) 评论(0) 推荐(0) 编辑
摘要: Scrapy 框架 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 A 阅读全文
posted @ 2019-02-09 05:32 羊驼之歌 阅读(699) 评论(0) 推荐(0) 编辑
摘要: requests 模块 介绍 使用requests可以模拟浏览器的请求, 比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) ps: requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的reques 阅读全文
posted @ 2019-02-09 03:06 羊驼之歌 阅读(411) 评论(0) 推荐(0) 编辑