摘要: 1.首先介绍一下:scrapy-redis框架 scrapy-redis:一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。github地址: https://github.com/darkrho/scrapy-redis , mongodb 、mysql 阅读全文
posted @ 2018-01-15 20:58 所有的遗憾都是成全 阅读(734) 评论(0) 推荐(0)
摘要: klearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html 阅读全文
posted @ 2018-01-15 20:54 所有的遗憾都是成全 阅读(504) 评论(0) 推荐(0)
摘要: 最常用的一种方法,利用pandas包 同样pandas也提供简单的读csv方法 另一种方法用csv包,一行一行写入 读取csv文件用reader 阅读全文
posted @ 2018-01-15 20:51 所有的遗憾都是成全 阅读(1230) 评论(0) 推荐(0)
摘要: NumPy基本方法 一、数组方法 创建数组:arange()创建一维数组;array()创建一维或多维数组,其参数是类似于数组的对象,如列表等 读取数组元素:如a[0],a[0,0] 数组变形:如b=a.reshape(2,3,4)将得到原数组变为2*3*4的三维数组后的数组;或是a.shape=( 阅读全文
posted @ 2018-01-15 20:47 所有的遗憾都是成全 阅读(2113) 评论(0) 推荐(1)
摘要: 回归是指利用样本(已知数据),产生拟合方程,从而对(未知数据)进行预测。 用途:预测、判别合理性。 困难:①选定变量(多元);②避免多重共线性;③观察拟合方程,避免过度拟合;④检验模型的合理性。 因变量与自变量的关系:①相关关系(非确定性关系,比如物理与化学成绩相关性),使用相关系数衡量线性相关性的 阅读全文
posted @ 2018-01-15 20:45 所有的遗憾都是成全 阅读(2360) 评论(0) 推荐(0)
摘要: 一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明 阅读全文
posted @ 2018-01-15 20:26 所有的遗憾都是成全 阅读(379) 评论(0) 推荐(0)
摘要: 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。 不同的簇类型 聚类旨在发现有用的对象簇,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,如下的几种簇类型。 明显分离的 可以看到(a)中不同组中任意两点之间的距离都大 阅读全文
posted @ 2018-01-15 20:15 所有的遗憾都是成全 阅读(11537) 评论(0) 推荐(0)