Loading

摘要: 原理 K近邻,对于一个点,求和它数量最近的K的元素的类别,以此推断它的类别 K近邻思想:物以类聚 K近邻没有显式的训练过程 距离度量: (1)欧式距离:两点之间直线 (2)曼哈顿距离:城市街区距离 (3)切比雪夫距离:棋盘距离 K值选择 选择较小的k值 用较小的邻域进行预测。预测结果对邻 近的实例点 阅读全文
posted @ 2021-09-19 21:41 笑云博文 阅读(51) 评论(0) 推荐(0)
摘要: 模型内容 求$f(x)$ \[ f(x)=sign(\omega \cdot x + b ) \] 其中,signx在大于零的时候取值为1,否则取值为0 𝒘 · 𝒙 + 𝒃是一个n维空间中的超平面S,其中w是超平面的法向量,b是超平面的截距,这个 超平面将特征空间划分成两部分,位于两部分的点分 阅读全文
posted @ 2021-09-19 21:19 笑云博文 阅读(72) 评论(0) 推荐(0)
摘要: 统计学习的三要素 模型 输出的模型有两类,决策函数或条件概率分布 决策函数,表示属于哪一个类别 \[ F = \{f|Y=f_{\theta}(X),\theta \in R^{n}\} \] 条件概率分布,表示分布空间 \[ F = \{P|P_{\theta}(Y|X),\theta \in R 阅读全文
posted @ 2021-09-19 21:03 笑云博文 阅读(68) 评论(0) 推荐(0)
摘要: 超参数的取值和搜索 超参数是不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。典型的例子有:用于支持向量分类器的 C 、kernel 和 gamma ,用于Lasso的 alpha等。 网格搜索法,随机搜索法,模型特定交叉验证,信息准则优化。网 阅读全文
posted @ 2021-09-19 20:27 笑云博文 阅读(239) 评论(0) 推荐(0)
摘要: 欠拟合和过拟合的定义 在机器学习问题中,经常会出现模型在训练数据上的得分很高,但是在新的数据上表现很差的情况,这称之为过拟合overfitting,又叫高方差high variance 而如果在训练数据上得分就很低,这称之为欠拟合underfitting,又叫高偏差high bias 留出法与验证集 阅读全文
posted @ 2021-09-19 20:25 笑云博文 阅读(221) 评论(0) 推荐(0)
摘要: 除了使用estimator的score函数简单粗略地评估模型的质量之外,在sklearn.metrics模块针对不同的问题类型提供了各种评估指标并且可以创建用户自定义的评估指标 metrics评估指标概述 sklearn.metrics中的评估指标有两类:以_score结尾的为某种得分,越大越好,以 阅读全文
posted @ 2021-09-19 20:17 笑云博文 阅读(239) 评论(0) 推荐(0)
摘要: Pipeline训练过程 第一级进行数据预处理,第二级完成数据降维,第三级实现分类、回归或聚类功能。 管道中除最后一个之外的所有estimators都必须是变换器(transformers),最后一个estimator可以是任意类型(transformer,classifier,regresser) 阅读全文
posted @ 2021-09-19 20:14 笑云博文 阅读(125) 评论(0) 推荐(0)
摘要: 其实这篇没啥内容,就是在熟悉一下代码$(_)$ 分类模型的训练——以决策树为例 导入相关的库 import numpy as np import pandas as pd %matplotlib inline import matplotlib.pyplot as plt from sklearn 阅读全文
posted @ 2021-09-19 20:10 笑云博文 阅读(168) 评论(0) 推荐(0)
摘要: 选择特征有以下两方面依据: 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 根据特征选择的形式又可以 阅读全文
posted @ 2021-09-19 19:47 笑云博文 阅读(189) 评论(0) 推荐(0)
摘要: 分类特征编码_独热编码 为了解决这个问题,我们可以使用一种叫做"one-of-K"或称做"one-hot"(独热)的编码方式。即两 个特征值来进行编码性别[1,0]表示"male",而[0,1]表示"female"。通常使用"one-hot"方式编码后会 增加数据的维度和稀疏性。 from skle 阅读全文
posted @ 2021-09-19 19:44 笑云博文 阅读(131) 评论(0) 推荐(0)
摘要: 归一化,标准化和正则化,二值化 概念和含义 数据归一化:将数据集中某一列数值特征的值缩放到0-1区间内 \[ z= \frac{X-min(X)}{max(X)-min(X)} \] 对不同特征维度进行伸缩变换,把有量纲表达式变为无量纲表达式; 改变原始数据的分布,使得各个特征维度对目标函数的影响权 阅读全文
posted @ 2021-09-19 19:29 笑云博文 阅读(497) 评论(0) 推荐(0)
摘要: API通用方法 类型 获取方式 自带的小数据集 sklearn.datasets.load_ 在线下载的数据集 sklearn.datasets.fetch_ 计算机生成的数据集 sklearn.datasets.make_ load系列 鸢尾花数据集: load_iris() 可用于分类 和 聚类 阅读全文
posted @ 2021-09-19 19:25 笑云博文 阅读(523) 评论(0) 推荐(0)
摘要: 机器学习任务的一般流程 本文以鸢尾花数据集为例,对机器学习人物的一般步骤进行了梳理 下面是baseline 数据的获取/导入 首先导入有关的库 import numpy as np import matplotlib.pyplot as plt import pandas as pd from sk 阅读全文
posted @ 2021-09-19 19:18 笑云博文 阅读(368) 评论(0) 推荐(0)
摘要: sklearn功能介绍 Introduction · sklearn 中文文档 (apachecn.org) sklearn的统一API estimator.fit(X_train,[y_train]) estimator.fit(X_train,[y_train]) estimator.predi 阅读全文
posted @ 2021-09-19 19:12 笑云博文 阅读(125) 评论(0) 推荐(0)
摘要: scikit基础与机器学习入门(1) 第一章仅对概念进行大略地描述,具体算法的具体原理后续再说 0-4 机器学习的分类 第一类是无监督学习(unsupervised learning),指的是从信息出发自动寻找规律,分析数据的结 构,常见的无监督学习任务有聚类,降维,密度估计,关联分析等。 第二类是 阅读全文
posted @ 2021-09-19 19:08 笑云博文 阅读(135) 评论(0) 推荐(0)
摘要: 博弈的策略式表述方法 博弈的策略式表述 博弈参与人(Players) \(N\)-参与人的集合 \(i\)-参与人 博弈参与人的策略集(Strategy sets) \(S_i\)-参与人的策略集 \(s_i\)-参与人的策略集的一个元素 所有参与人的策略放在一起,称之为博弈的策略组合,表示为$s 阅读全文
posted @ 2021-09-19 18:59 笑云博文 阅读(1591) 评论(0) 推荐(0)
摘要: 博弈论是什么? 博弈论是以数学为主要分析工具,研究一个存在多个决策者或行为主体的局势中,各决策者之间彼此存在交互性决策行为的理论。 博弈的要素 参与人(Player) 参与人是指一个博弈中的决策主体,通常称为参与者或局中人。 信息(Information) 信息是指参与人在博弈过程中能了解和观察到的 阅读全文
posted @ 2021-09-19 18:57 笑云博文 阅读(344) 评论(0) 推荐(0)
摘要: 比特币有关 在现代社会中,一种大量流通的货币一般都有非常高级的加密技术,例如人民币上就有水印、荧光光圈等一系列技术来提高伪造的难度。数字货币在本质上是网络上的数据,非常容易受到攻击,所以需要一套完善的加密体系。 就像我们在银行有账户密码一样,在比特币中我们也有一些相似的东西来决定一个账户的所有权。具 阅读全文
posted @ 2021-09-19 18:54 笑云博文 阅读(295) 评论(0) 推荐(0)