随笔分类 -  机器学习

1
摘要:1:matplotlib 2:seaborn 阅读全文
posted @ 2021-12-03 23:05 收购阿里巴巴 阅读(68) 评论(0) 推荐(0)
摘要:1:决策树 1.1决策树可以分为两个阶段 1.2:熵和Gini系数: 【注】熵和Gini系数的特点(内部越混乱则熵或Gini系数值越大,否则越小) 熵和Gini系数拟解决的问题:熵和Gini系数的引入是为了判断谁作为决策树的根节点? 如何解决:通过信息增益(gain(某一属性/特征)=原始熵值-节点 阅读全文
posted @ 2021-11-02 10:58 收购阿里巴巴 阅读(213) 评论(0) 推荐(0)
摘要:1:梯度下降法就是一种以梯度来建立迭代关系式的迭代法 迭代法 阅读全文
posted @ 2021-05-25 10:11 收购阿里巴巴 阅读(52) 评论(0) 推荐(0)
摘要:1:类别不平衡 2:解决方法再缩放: 3:其它方法 【注】方法1和2适合训练集类别不平衡,数据总体不知道是什么样的。方法3适合用于数据总体不平衡。同时其训练集也有可能是不平衡的。 阅读全文
posted @ 2021-03-08 17:01 收购阿里巴巴 阅读(58) 评论(0) 推荐(0)
摘要:1:两种用二分类解决多分类问题的思路OVO(一对一),OVR(一对多) 2:多对多 阅读全文
posted @ 2021-03-08 16:33 收购阿里巴巴 阅读(50) 评论(0) 推荐(0)
摘要:1:线性判别分析 阅读全文
posted @ 2021-03-01 19:44 收购阿里巴巴 阅读(64) 评论(0) 推荐(0)
摘要:1:单位阶跃函数与对数几率函数 【注:】3.25式子的由来推导: 以下式子为是好瓜和坏瓜的联合概率:如果是好瓜就带入3.23,如果是坏瓜就带入3.24。如果对以下式子求导来计算最大的w和b过于复杂, 可以利用取对数,将以下式子变成加。由于取对数之后,不改变联合概率越大w和b越大的特点,所以可以这样做 阅读全文
posted @ 2021-03-01 16:23 收购阿里巴巴 阅读(106) 评论(0) 推荐(0)
摘要:2:多线性回归 【注:】下图中的矩阵相乘表示的是 【注】两个矩阵相乘不满秩的情况:A的秩最大为m,B的秩最大也为m,乘积矩阵最大为m. 1:(m<<d)秩<乘积矩阵的行数 2:(当m>>d)如果A或者B存在一个矩阵的行向量线性相关时,导致乘积矩阵最大为d.导致秩<乘积矩阵的行数 3:对数线性回归 阅读全文
posted @ 2021-03-01 15:18 收购阿里巴巴 阅读(60) 评论(0) 推荐(0)
摘要:1:线性回归 【注】这里的x1是第一个样本。xi1是第i个样本的属性 【注】展开3.4式: 展开后发现是一条二次曲线: 【注】3.7式中的那个也可以写成x拔. 阅读全文
posted @ 2021-03-01 09:18 收购阿里巴巴 阅读(41) 评论(0) 推荐(0)
摘要:1:基本形式 【注】x=(x1;x2;.........xd)分号表示的是x为列向量。 阅读全文
posted @ 2021-02-25 16:24 收购阿里巴巴 阅读(74) 评论(0) 推荐(0)
摘要:1:偏差与方差和噪声 2:期望泛化误差的分解【注:】数学期望又称均值 3:泛化误差与方差和偏差的示意图 【注:】示意图中的二次曲线为泛化误差。其中由于训练程度的增大,模型过拟合数据集会减少与真实数据的偏差;当训练程度越大,模型对训练数据过拟合,当用一个测试集时会增大方差,因为过于拟合训练集。 阅读全文
posted @ 2021-02-25 11:20 收购阿里巴巴 阅读(175) 评论(0) 推荐(0)
摘要:1:假设检验 (1)泛化错误率和测试错误率 【注】上式中的(一窟溪龙0)表示泛化误差率,(一窟溪龙)表示满足条件的假设最小误差率(可以从1,0.9,0.8,07........)。(一窟溪龙拔)表示满足条件的最小错误率的个数。 【注】本假设中为(一窟溪龙=0.5),(一窟溪龙拔=5) (2)平均测试 阅读全文
posted @ 2021-02-24 18:37 收购阿里巴巴 阅读(196) 评论(0) 推荐(0)
摘要:1:代价敏感错误率与代价曲线(在均等代价ROC曲线 不能直接反映出模型的期望总体代价)(适用于分类任务) 【注】未完全搞懂,代价曲线。 【注】2.25相当于对2.23的归一化。 其中2.24公式表示的是横坐标的归一化,2.25公式表示的是纵坐标的归一化。 阅读全文
posted @ 2021-02-24 11:49 收购阿里巴巴 阅读(43) 评论(0) 推荐(0)
摘要:1:F1的一般形式 2:宏查准率和查全率以及宏F1 3:微查准率和微查全率和微F1 4:ROC曲线和AUC(适用于分类任务) 【注】学习器即为训练所得模型。 【注】知道什么意思,对此处面积的求和公式2.20不太懂。公式中的x,y为坐标中的x,y不是样本的那个x,y 【注】例如:数字识别是不是5的l( 阅读全文
posted @ 2021-02-24 10:24 收购阿里巴巴 阅读(39) 评论(0) 推荐(0)
摘要:【注】2.2式为D为测试集,2.3中花D为全集。2.3求的是f(x)-y的数学期望,在实际实验中不用,只在理论中用。2.2是将x所取得概率都均等了,用于实际问题。 1:正确率又称准确率、精度(accuracy)和错误率(error rate)(用于分类任务中常用的两种性能度量,即适用于二分类任务,也 阅读全文
posted @ 2021-02-22 21:17 收购阿里巴巴 阅读(54) 评论(0) 推荐(0)
摘要:1:评估方法 (1)留出法: 【注】 注意1:划分时,保持数据分布的一致性 注意2: (2)交叉验证法(常用) (3)自助法(用的很少) 【注】用于解决样本比较少的情况 【注】自助法的优点和缺点 2:调参与最终模型 通过验证集进行模型的选择和调参: 阅读全文
posted @ 2021-02-22 16:51 收购阿里巴巴 阅读(337) 评论(0) 推荐(0)
摘要:1:训练误差或经验误差(模型在旧样本上的误差)和泛化误差(模型在新样本上的误差) 2:欠拟合和过拟合 阅读全文
posted @ 2021-02-22 15:46 收购阿里巴巴 阅读(88) 评论(0) 推荐(0)
摘要:1归纳偏好 2:算法对比 推导: [注]由于假设f是均匀分布的是不客观的:故所得的结论也是不客观的。 上面式子中的2(是因为是二分类) 1/2是因为模型与映射函数所得的结果一半对一半错。 1是因为全集中所有概率之和为1. 3:什么是好的算法 阅读全文
posted @ 2021-02-21 17:18 收购阿里巴巴 阅读(81) 评论(0) 推荐(0)
摘要:1假设空间 2:狭义的归纳学习或者是狭义的概念学习(概念形成) 【注】任意*也是一种可能 阅读全文
posted @ 2021-02-21 11:33 收购阿里巴巴 阅读(103) 评论(0) 推荐(0)
摘要:1.1基本术语 1数据: 2数据集: 3示例或样本: 4属性或特征: 5属性值: 6属性空间或样本空间或输入空间: 7特征向量(x): D中X1是一个用来表示一个示例的向量 8学习或训练、训练数据、训练样本、训练集、模型或学习器(f): 9标签lable(y) 10:分类(分类模型)和回归(回归模型 阅读全文
posted @ 2021-02-21 11:09 收购阿里巴巴 阅读(93) 评论(0) 推荐(0)

1