2019年6月12日

训练测试样本划分

摘要：在离线建模环节，需要对模型进行评估，这就需要对总样本进行划分，一部分用于训练，模型从训练集学习规则，一部分用于测试，检验模型的泛化能力。下面介绍几种样本划分方法。留出法方法：将样本集 D 分成两个互斥的样本集合，训练集为S，测试集为T，S∩T=Ø，SUT=D 这种方法非常简单，但不能充分利用数阅读全文

posted @ 2019-06-12 15:50 努力的孔子阅读(2763) 评论(0) 推荐(0)

2019年6月11日

kmeans 聚类 k 值优化

摘要： kmeans 中k值一直是个令人头疼的问题，这里提出几种优化策略。手肘法核心思想 1. 肉眼评价聚类好坏是看每类样本是否紧凑，称之为聚合程度； 2. 类别数越大，样本划分越精细，聚合程度越高，当类别数为样本数时，一个样本一个类，聚合程度最高； 3. 当k小于真实类别数时，随着k的增大，聚合程度显阅读全文

posted @ 2019-06-11 11:24 努力的孔子阅读(2068) 评论(0) 推荐(0)

爬虫实战(一)-新版知乎

摘要：知乎是爬虫的一个经典案例，因为他经常改版，越来越难爬，可能我这个教程写完他就又改版了。知乎的难点 1. 登录，且url跳转 2. 参数加密 3. 验证码本文将介绍模拟登录知乎的详细过程。抓包 -- 分析登录过程使用 fiddler 抓包使用浏览器抓包 1. 获取登录url 输入账号、密码等阅读全文

posted @ 2019-06-11 09:52 努力的孔子阅读(6778) 评论(7) 推荐(0)

2019年5月27日

Scrapy 教程(11)-API启动爬虫

摘要： scarpy 不仅提供了 scrapy crawl spider 命令来启动爬虫，还提供了一种利用 API 编写脚本来启动爬虫的方法。 scrapy 基于 twisted 异步网络库构建的，因此需要在 twisted 容器内运行它。可以通过两个 API 运行爬虫：scrapy.crawler.C 阅读全文

posted @ 2019-05-27 15:13 努力的孔子阅读(2075) 评论(1) 推荐(0)

2019年5月24日

Scrapy 教程(十)-管道与数据库

摘要： Scrapy 框架将爬取的数据通过管道进行处理，即 pipelines.py 文件。管道处理流程一、定义 item item 表示的是数据结构，定义了数据包括哪些字段写法比较固定，不可随意更改；注意没有return 二、在爬虫中生成 item 爬虫组件必须将数据按 item 的结构进行组织注阅读全文

posted @ 2019-05-24 17:14 努力的孔子阅读(716) 评论(0) 推荐(0)

Scrapy 教程(九)-日志系统

摘要：最新版本的 scrapy 已经废弃了 scrapy.log 的使用，赞成显示调用python标准日志记录。 Python 内建日志系统 Scrapy 日志系统方式一：Spider 实例提供的logger方法方式二：自定义日志记录器这两种方式生成的日志记录在系统命令中日志记录配置若要生成日志阅读全文

posted @ 2019-05-24 10:58 努力的孔子阅读(448) 评论(0) 推荐(0)

2019年5月23日

selenium 教程

摘要： selenium 本身是一套web自动化测试工具，但其经常被用于爬虫，解决一些复杂爬虫的问题。 selenium 用于爬虫时，相当于模拟人操作浏览器。浏览器驱动使用 selenium 需要先安装浏览器驱动，selenium 支持多种浏览器可以看到支持的浏览器类型有十几种，其中常用的有 chr 阅读全文

posted @ 2019-05-23 15:20 努力的孔子阅读(14139) 评论(0) 推荐(1)

Scrapy 教程(八)-分布式爬虫

摘要： scrapy 本身并不是一个分布式框架，而 Scrapy-redis 库使得分布式成为可能； Scrapy-redis 并没有重构框架，而是基于redis数据库重写了框架的某些组件。分布式框架要解决两个问题分配爬取任务：为每个爬虫分配不重复的任务 scrapy-redis 使用 redis 数据阅读全文

posted @ 2019-05-23 14:45 努力的孔子阅读(513) 评论(0) 推荐(0)

redis 教程(一)-基础知识

摘要： redis 简介 redis 是高性能的 key-value 数据库，读的速度是110000次/s,写的速度是81000次/s ，它以内存作为主存储具有以下优点： 1. 支持数据的持久化，将内存中的数据存入磁盘，重启时自动加载 2. 丰富的数据结构，其value可以是多种数据类型，如 list s 阅读全文

posted @ 2019-05-23 14:42 努力的孔子阅读(697) 评论(0) 推荐(0)

2019年5月17日

Scrapy 教程(七)-架构与中间件

摘要： Scrapy 使用 Twisted 这个异步框架来处理网络通信，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。 Scrapy 架构其实之前的教程都有涉及，这里再做个系统介绍 Engine ：Scrapy 引擎，即控制中心，负责控制数据流在系统的各个组件中流动，并根据相应动作触发事件；阅读全文

posted @ 2019-05-17 15:23 努力的孔子阅读(707) 评论(0) 推荐(0)