// // // //
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 41 下一页

2019年6月12日

摘要: 在离线建模环节,需要对模型进行评估,这就需要对总样本进行划分,一部分用于训练,模型从训练集学习规则,一部分用于测试,检验模型的泛化能力。 下面介绍几种样本划分方法。 留出法 方法:将样本集 D 分成两个互斥的样本集合,训练集为S,测试集为T,S∩T=Ø,SUT=D 这种方法非常简单,但不能充分利用数 阅读全文
posted @ 2019-06-12 15:50 努力的孔子 阅读(2737) 评论(0) 推荐(0)
 

2019年6月11日

摘要: kmeans 中k值一直是个令人头疼的问题,这里提出几种优化策略。 手肘法 核心思想 1. 肉眼评价聚类好坏是看每类样本是否紧凑,称之为聚合程度; 2. 类别数越大,样本划分越精细,聚合程度越高,当类别数为样本数时,一个样本一个类,聚合程度最高; 3. 当k小于真实类别数时,随着k的增大,聚合程度显 阅读全文
posted @ 2019-06-11 11:24 努力的孔子 阅读(2060) 评论(0) 推荐(0)
 
摘要: 知乎是爬虫的一个经典案例,因为他经常改版,越来越难爬,可能我这个教程写完他就又改版了。 知乎的难点 1. 登录,且url跳转 2. 参数加密 3. 验证码 本文将介绍模拟登录知乎的详细过程。 抓包 -- 分析登录过程 使用 fiddler 抓包 使用浏览器抓包 1. 获取登录url 输入账号、密码等 阅读全文
posted @ 2019-06-11 09:52 努力的孔子 阅读(6768) 评论(7) 推荐(0)
 

2019年5月27日

摘要: scarpy 不仅提供了 scrapy crawl spider 命令来启动爬虫,还提供了一种利用 API 编写脚本 来启动爬虫的方法。 scrapy 基于 twisted 异步网络库构建的,因此需要在 twisted 容器内运行它。 可以通过两个 API 运行爬虫:scrapy.crawler.C 阅读全文
posted @ 2019-05-27 15:13 努力的孔子 阅读(2069) 评论(1) 推荐(0)
 

2019年5月24日

摘要: Scrapy 框架将爬取的数据通过管道进行处理,即 pipelines.py 文件。 管道处理流程 一、定义 item item 表示的是数据结构,定义了数据包括哪些字段 写法比较固定,不可随意更改;注意没有return 二、在爬虫中生成 item 爬虫组件必须将数据按 item 的结构进行组织 注 阅读全文
posted @ 2019-05-24 17:14 努力的孔子 阅读(713) 评论(0) 推荐(0)
 
摘要: 最新版本的 scrapy 已经废弃了 scrapy.log 的使用,赞成显示调用python标准日志记录。 Python 内建日志系统 Scrapy 日志系统 方式一:Spider 实例提供的logger方法 方式二:自定义日志记录器 这两种方式生成的日志记录在系统命令中 日志记录配置 若要生成日志 阅读全文
posted @ 2019-05-24 10:58 努力的孔子 阅读(443) 评论(0) 推荐(0)
 

2019年5月23日

摘要: selenium 本身是一套web自动化测试工具,但其经常被用于爬虫,解决一些复杂爬虫的问题。 selenium 用于爬虫时,相当于模拟人操作浏览器。 浏览器驱动 使用 selenium 需要先安装 浏览器驱动,selenium 支持多种浏览器 可以看到支持的浏览器类型有十几种,其中常用的有 chr 阅读全文
posted @ 2019-05-23 15:20 努力的孔子 阅读(14136) 评论(0) 推荐(1)
 
摘要: scrapy 本身并不是一个分布式框架,而 Scrapy-redis 库使得分布式成为可能; Scrapy-redis 并没有重构框架,而是基于redis数据库重写了框架的某些组件。 分布式框架要解决两个问题 分配爬取任务:为每个爬虫分配不重复的任务 scrapy-redis 使用 redis 数据 阅读全文
posted @ 2019-05-23 14:45 努力的孔子 阅读(510) 评论(0) 推荐(0)
 
摘要: redis 简介 redis 是高性能的 key-value 数据库,读的速度是110000次/s,写的速度是81000次/s ,它以内存作为主存储 具有以下优点: 1. 支持数据的持久化,将内存中的数据存入磁盘,重启时自动加载 2. 丰富的数据结构,其value可以是多种数据类型,如 list s 阅读全文
posted @ 2019-05-23 14:42 努力的孔子 阅读(695) 评论(0) 推荐(0)
 

2019年5月17日

摘要: Scrapy 使用 Twisted 这个异步框架来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。 Scrapy 架构 其实之前的教程都有涉及,这里再做个系统介绍 Engine :Scrapy 引擎,即控制中心,负责控制数据流在系统的各个组件中流动,并根据相应动作触发事件; 阅读全文
posted @ 2019-05-17 15:23 努力的孔子 阅读(705) 评论(0) 推荐(0)
 
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 41 下一页