2021 年 9月 19 日随笔档案 - 笑云博文

2021年9月19日

摘要：原理 K近邻，对于一个点，求和它数量最近的K的元素的类别，以此推断它的类别 K近邻思想：物以类聚 K近邻没有显式的训练过程距离度量：（1）欧式距离：两点之间直线（2）曼哈顿距离：城市街区距离（3）切比雪夫距离：棋盘距离 K值选择选择较小的k值用较小的邻域进行预测。预测结果对邻近的实例点阅读全文

posted @ 2021-09-19 21:41 笑云博文阅读(51) 评论(0) 推荐(0)

统计学习方法 2 感知机

摘要：模型内容求$f(x)$ \[ f(x)=sign(\omega \cdot x + b ) \] 其中，signx在大于零的时候取值为1，否则取值为0 𝒘 · 𝒙 + 𝒃是一个n维空间中的超平面S，其中w是超平面的法向量，b是超平面的截距，这个超平面将特征空间划分成两部分，位于两部分的点分阅读全文

posted @ 2021-09-19 21:19 笑云博文阅读(72) 评论(0) 推荐(0)

统计学习方法 1 绪论

摘要：统计学习的三要素模型输出的模型有两类，决策函数或条件概率分布决策函数，表示属于哪一个类别 \[ F = \{f|Y=f_{\theta}(X),\theta \in R^{n}\} \] 条件概率分布，表示分布空间 \[ F = \{P|P_{\theta}(Y|X),\theta \in R 阅读全文

posted @ 2021-09-19 21:03 笑云博文阅读(68) 评论(0) 推荐(0)

scilit基础和机器学习入门（12）模型的优化

摘要：超参数的取值和搜索超参数是不直接在估计器内学习的参数。在 scikit-learn 包中，它们作为估计器类中构造函数的参数进行传递。典型的例子有：用于支持向量分类器的 C 、kernel 和 gamma ，用于Lasso的 alpha等。网格搜索法，随机搜索法，模型特定交叉验证，信息准则优化。网阅读全文

posted @ 2021-09-19 20:27 笑云博文阅读(239) 评论(0) 推荐(0)

scikit基础与机器学习入门（11）欠拟合，过拟合和交叉验证

摘要：欠拟合和过拟合的定义在机器学习问题中，经常会出现模型在训练数据上的得分很高，但是在新的数据上表现很差的情况，这称之为过拟合overfitting,又叫高方差high variance 而如果在训练数据上得分就很低，这称之为欠拟合underfitting,又叫高偏差high bias 留出法与验证集阅读全文

posted @ 2021-09-19 20:25 笑云博文阅读(221) 评论(0) 推荐(0)

scikit基础与机器学习入门（10）模型的评估

摘要：除了使用estimator的score函数简单粗略地评估模型的质量之外，在sklearn.metrics模块针对不同的问题类型提供了各种评估指标并且可以创建用户自定义的评估指标 metrics评估指标概述 sklearn.metrics中的评估指标有两类：以_score结尾的为某种得分，越大越好，以阅读全文

posted @ 2021-09-19 20:17 笑云博文阅读(239) 评论(0) 推荐(0)

scikit基础与机器学习入门（9）Pipeline和FeatureUnion的构建——构筑有条理的机器学习系统

摘要： Pipeline训练过程第一级进行数据预处理，第二级完成数据降维，第三级实现分类、回归或聚类功能。管道中除最后一个之外的所有estimators都必须是变换器（transformers），最后一个estimator可以是任意类型（transformer，classifier，regresser）阅读全文

posted @ 2021-09-19 20:14 笑云博文阅读(125) 评论(0) 推荐(0)

scikit基础与机器学习入门（8） sklearn主要解决的三类问题——分类，回归和聚类

摘要：其实这篇没啥内容，就是在熟悉一下代码$(_)$ 分类模型的训练——以决策树为例导入相关的库 import numpy as np import pandas as pd %matplotlib inline import matplotlib.pyplot as plt from sklearn 阅读全文

posted @ 2021-09-19 20:10 笑云博文阅读(168) 评论(0) 推荐(0)

scikit基础与机器学习入门（7）特征的选择

摘要：选择特征有以下两方面依据：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可以阅读全文

posted @ 2021-09-19 19:47 笑云博文阅读(189) 评论(0) 推荐(0)

scikit基础与机器学习入门（6）编码，增加多项式特征和缺失值处理

摘要：分类特征编码_独热编码为了解决这个问题，我们可以使用一种叫做"one-of-K"或称做"one-hot"（独热）的编码方式。即两个特征值来进行编码性别[1,0]表示"male"，而[0,1]表示"female"。通常使用"one-hot"方式编码后会增加数据的维度和稀疏性。 from skle 阅读全文

posted @ 2021-09-19 19:44 笑云博文阅读(131) 评论(0) 推荐(0)

scikit基础与机器学习入门（5）归一化，标准化和正则化，二值化

摘要：归一化，标准化和正则化，二值化概念和含义数据归一化：将数据集中某一列数值特征的值缩放到0-1区间内 \[ z= \frac{X-min(X)}{max(X)-min(X)} \] 对不同特征维度进行伸缩变换，把有量纲表达式变为无量纲表达式；改变原始数据的分布，使得各个特征维度对目标函数的影响权阅读全文

posted @ 2021-09-19 19:29 笑云博文阅读(497) 评论(0) 推荐(0)

scikit基础与机器学习入门（4） sklearn模块数据集的使用——自带数据集和自定义数据集

摘要： API通用方法类型获取方式自带的小数据集 sklearn.datasets.load_ 在线下载的数据集 sklearn.datasets.fetch_ 计算机生成的数据集 sklearn.datasets.make_ load系列鸢尾花数据集： load_iris() 可用于分类和聚类阅读全文

posted @ 2021-09-19 19:25 笑云博文阅读(523) 评论(0) 推荐(0)

scikit基础与机器学习入门（3）机器学习任务的一般流程——以鸢尾花分类为例

摘要：机器学习任务的一般流程本文以鸢尾花数据集为例，对机器学习人物的一般步骤进行了梳理下面是baseline 数据的获取/导入首先导入有关的库 import numpy as np import matplotlib.pyplot as plt import pandas as pd from sk 阅读全文

posted @ 2021-09-19 19:18 笑云博文阅读(368) 评论(0) 推荐(0)

scikit基础与机器学习入门（2） sklearn基本用法

摘要： sklearn功能介绍 Introduction · sklearn 中文文档 (apachecn.org) sklearn的统一API estimator.fit(X_train,[y_train]) estimator.fit(X_train,[y_train]) estimator.predi 阅读全文

posted @ 2021-09-19 19:12 笑云博文阅读(125) 评论(0) 推荐(0)

scikit基础与机器学习入门（1）背景介绍

摘要： scikit基础与机器学习入门（1）第一章仅对概念进行大略地描述，具体算法的具体原理后续再说 0-4 机器学习的分类第一类是无监督学习(unsupervised learning)，指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类，降维，密度估计，关联分析等。第二类是阅读全文

posted @ 2021-09-19 19:08 笑云博文阅读(135) 评论(0) 推荐(0)

算法博弈论_2_策略式表述博弈

摘要：博弈的策略式表述方法博弈的策略式表述博弈参与人（Players） $N$-参与人的集合 $i$-参与人博弈参与人的策略集（Strategy sets） $S_i$-参与人的策略集 $s_i$-参与人的策略集的一个元素所有参与人的策略放在一起，称之为博弈的策略组合，表示为$s 阅读全文

posted @ 2021-09-19 18:59 笑云博文阅读(1591) 评论(0) 推荐(0)

算法博弈论_1_引言

摘要：博弈论是什么？博弈论是以数学为主要分析工具，研究一个存在多个决策者或行为主体的局势中，各决策者之间彼此存在交互性决策行为的理论。博弈的要素参与人(Player) 参与人是指一个博弈中的决策主体，通常称为参与者或局中人。信息(Information) 信息是指参与人在博弈过程中能了解和观察到的阅读全文

posted @ 2021-09-19 18:57 笑云博文阅读(344) 评论(0) 推荐(0)

区块链入门

摘要：比特币有关在现代社会中，一种大量流通的货币一般都有非常高级的加密技术，例如人民币上就有水印、荧光光圈等一系列技术来提高伪造的难度。数字货币在本质上是网络上的数据，非常容易受到攻击，所以需要一套完善的加密体系。就像我们在银行有账户密码一样，在比特币中我们也有一些相似的东西来决定一个账户的所有权。具阅读全文

posted @ 2021-09-19 18:54 笑云博文阅读(295) 评论(0) 推荐(0)

Loading

笑云博文

AI搬砖人的修行之旅

公告