摘要: 1.1 统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 1.2 监督学习 统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。本文只讨论监督学习。 关键词汇: 1、输入空间 input space(样本空间 sample space、属性空间 阅读全文
posted @ 2018-07-12 15:58 浮生未stay 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: sklearn.neighbors 最近邻 一、最近邻模型主要有五类: 1、k近邻模型 neighbors.KNeighborsClassifier k近邻分类 neighbors.KNeighborsRegressor k近邻回归 2、R近邻模型 neighbors.RadiusNeighbors 阅读全文
posted @ 2018-04-30 14:36 浮生未stay 阅读(960) 评论(0) 推荐(0) 编辑
摘要: kNN算法概述 kNN算法是比较好理解,也比较容易编写的分类算法。 简单地说,kNN算法采用测量不同特征值之间的距离方法进行分类。 我们可以假设在一个N维空间中有很多个点,然后这些点被分为几个类。相同类的点,肯定是聚集在一起的,它们之间的距离相比于和其他类的点来说,非常近。如果现在有个新的点,我们不 阅读全文
posted @ 2018-01-07 13:42 浮生未stay 阅读(16029) 评论(0) 推荐(0) 编辑
摘要: 第4章 分类:基本概念、决策树与模型评估 分类(classification):分类任务就是通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个余弦定义的类标号y。目标函数也称为分类模型(classification model)。 属性可以是离散的或者连续的,但类 阅读全文
posted @ 2017-12-16 21:07 浮生未stay 阅读(8474) 评论(0) 推荐(2) 编辑
摘要: 第3章 探索数据 数据探索有助于选择合适的数据预处理和数据分析技术 汇总统计 汇总统计(summary statistics)是量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。 1、频率和众数 给定一个无序的、分类的值的集合,为了进一步刻画值的性质,除计算特定数据集中每个 阅读全文
posted @ 2017-12-13 23:10 浮生未stay 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 第2章 数据类型 通常,数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特性的属性描述。属性有时也叫做变量、特征、字段、特征或维。 属性(attribute)是对象的性质或特征,它因对象而异,或随时间而变化。 测量标度(m 阅读全文
posted @ 2017-12-12 20:09 浮生未stay 阅读(2224) 评论(0) 推荐(0) 编辑
摘要: 第1章 绪论 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。 数据挖掘是数据库中知识发现(knowledeg discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。 KDD:输入数据→数据预处理→数据挖掘→后处理→信息 数据 阅读全文
posted @ 2017-12-11 20:27 浮生未stay 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 列表list 1、L.append(object) -> None 在列表末尾添加单个元素,任何类型都可以,包括列表或元组等 2、L.extend(iterable) -> None 以序列的形式,在列表末尾添加多个元素 3、L.insert(index, object) -> None 在inde 阅读全文
posted @ 2017-11-27 19:40 浮生未stay 阅读(820) 评论(0) 推荐(0) 编辑
摘要: 关于NumPy的一些基础知识,供有一定NumPy基础的人作复习用 创建ndarray 每个数组都有一个shape(一个表示各维度大小的元组)和一个dtype(一个用于说明数组数据类型的对象),还有一个ndim(表示数组有几个维度) ndarray的数据类型 可以通过ndarray的astype方法转 阅读全文
posted @ 2017-11-19 20:39 浮生未stay 阅读(390) 评论(0) 推荐(0) 编辑