TOP
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 34 下一页
摘要: 中间件 下载器中间件 写中间件 配置文件 执行顺序梳理 应用场景 - 随机 User-Agent 开源的组件 导入 配置文件中设置选择方式 根据配置文件中的选择方式设置模式 应用场景 - IP代理 写个脚本完成对 西刺代理IP的爬虫 并存入数据库 设置中间件来调用脚本设置代理 IP 爬虫中间件 写中 阅读全文
posted @ 2019-02-10 03:01 羊驼之歌 阅读(502) 评论(0) 推荐(0)
摘要: 持久化相关 相关文件 items.py 数据结构模板文件。定义数据属性。 pipelines.py 管道文件。接收数据(items),进行持久化操作。 持久化流程 ▨ 爬虫文件爬取到数据后,将数据封装到 items 对象 ▨ items.py 用 yield 关键字将 items对象 提交给 pip 阅读全文
posted @ 2019-02-10 02:10 羊驼之歌 阅读(207) 评论(0) 推荐(0)
摘要: BeatifulSoup 模块 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 安装 解析器下载 解析器 下表列出了主要的解析器,以及它们的优缺点, 官网推荐使用 lxml 作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3 阅读全文
posted @ 2019-02-10 01:27 羊驼之歌 阅读(427) 评论(0) 推荐(0)
摘要: 简单爬虫示例 爬取抽屉,以及自动登陆抽屉点赞 先查看首页拿到cookie,然后登陆要携带首页拿到的 cookie 才可以通过验证 爬取拉勾网 请求头中存在自定义的验证字段,要想办法拿到才可以正确爬取,以及 Referer 的使用 自动登陆GitHub scrf_token 的验证 总结 请求头: 特 阅读全文
posted @ 2019-02-10 01:06 羊驼之歌 阅读(794) 评论(0) 推荐(0)
摘要: Spiders - 爬虫文件 概念 介绍 由一系列定义了一个网址或一组网址类如何被爬取的类组成 具体包括如何执行爬取任务并且如何从页面中提取结构化的数据。 简单来说就是帮助你爬取数据的地方 内部行为流程 初始请求以及默认回调 生成初始的 Requests 来爬取第一个URLS,并且标识一个回调函数, 阅读全文
posted @ 2019-02-09 05:46 羊驼之歌 阅读(765) 评论(0) 推荐(0)
摘要: Scrapy 框架 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 A 阅读全文
posted @ 2019-02-09 05:32 羊驼之歌 阅读(748) 评论(0) 推荐(0)
摘要: requests 模块 介绍 使用requests可以模拟浏览器的请求, 比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) ps: requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的reques 阅读全文
posted @ 2019-02-09 03:06 羊驼之歌 阅读(432) 评论(0) 推荐(0)
摘要: ORM 简称 ORM, O/RM, O/R Mapping 持久化模型 特征 数据表和编程类的映射 数据类型映射 字段属性映射类的属性和数据类型 关系映射 表于表之间的关系对应到 编程类的关系上 字段属性映射类的属性和数据类型 表于表之间的关系对应到 编程类的关系上 优点 数据操作和业务逻辑区分 封 阅读全文
posted @ 2019-02-08 07:34 羊驼之歌 阅读(2540) 评论(0) 推荐(0)
摘要: 源码流程 创建对象 run run_simple(host,port,self,**options) 会对第三个传入的参数加()进行执行 第三个参数如果是app对象就执行其 __call__ 方法 __call__ call 返回的是 wsgi_app 的执行结果 wsgi_app wsgi_app 阅读全文
posted @ 2019-02-08 06:38 羊驼之歌 阅读(451) 评论(0) 推荐(0)
摘要: session 加密后放在用户浏览器的 cookie 中 于django 的自带session 不同,flask 的 session 需要导入 添加密钥 内部流程 操作 完全类似于字典操作 流程 请求到来 > 视图函数 > 请求结束 当请求刚到来: flask读取cookie中session对应的值 阅读全文
posted @ 2019-02-08 04:34 羊驼之歌 阅读(350) 评论(0) 推荐(0)
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 34 下一页