2019 年 2月 9 日随笔档案 - 羊驼之歌

2019年2月9日

摘要： Spiders - 爬虫文件概念介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据。简单来说就是帮助你爬取数据的地方内部行为流程初始请求以及默认回调生成初始的 Requests 来爬取第一个URLS，并且标识一个回调函数, 阅读全文

posted @ 2019-02-09 05:46 羊驼之歌阅读(711) 评论(0) 推荐(0) 编辑

Scrapy 框架 - 简介

摘要： Scrapy 框架介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 A 阅读全文

posted @ 2019-02-09 05:32 羊驼之歌阅读(699) 评论(0) 推荐(0) 编辑

爬虫 requests 模块

摘要： requests 模块介绍使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） ps： requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的reques 阅读全文

posted @ 2019-02-09 03:06 羊驼之歌阅读(411) 评论(0) 推荐(0) 编辑

坨之歌

The Bird of the Termes is my name, eating my wings to make me tame.

公告