微信扫一扫打赏支持

随笔分类 -  4_机器学习书籍及杂(西瓜书、机器学习实战、统计学习方法、百面机器学习等)

上一页 1 ··· 6 7 8 9 10 11 12 13 14 15 下一页
摘要:简单认识Adam优化器 一、总结 一句话总结: Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。 1、SGD 算法在科研和工程中的应用? 基于随机梯度下降(SGD)的优化算法在科研和工程的很多领域里都是极其核心的。很多理论或工程问题都可以转化为对目 阅读全文
posted @ 2020-07-24 22:03 范仁义 阅读(4207) 评论(0) 推荐(0)
摘要:Adam优化算法 一、总结 一句话总结: Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。 1、Adam 算法和传统的随机梯度下降不同? 1、随机梯度下降保持单一的学习率(即alpha)更新所有的权重,学习率在训练过程中并不会改变。 2、而Adam 阅读全文
posted @ 2020-07-24 21:58 范仁义 阅读(762) 评论(0) 推荐(0)
摘要:反向传播算法 一、总结 一句话总结: 【误差反向传播】:反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。 1、“正向传播”求损失,“反向传播”回传误差? “正向传播”求损失,“反向传播 阅读全文
posted @ 2020-07-24 21:06 范仁义 阅读(754) 评论(0) 推荐(0)
摘要:详解one-hot编码 一、总结 一句话总结: a、One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 b、One-Hot编码实例:北京[1,0,0],上海[0,1,0],深圳[0,0,1] 1、为什么需要 阅读全文
posted @ 2020-07-24 05:37 范仁义 阅读(1194) 评论(0) 推荐(0)
摘要:softmax与多分类 一、总结 一句话总结: sotfmax 函数在机器学习和深度学习中有着广泛的应用, 主要用于多分类问题。 1、softmax 函数 定义? A、Si=e^(Vi)/(Σe^(Vj)) B、也就是该元素的指数 除以 所有元素的指数和,取指数是为了使差别更大。 C、于是该数组的每 阅读全文
posted @ 2020-07-24 04:54 范仁义 阅读(421) 评论(0) 推荐(0)
摘要:自动编码器(Autoencoder) 一、总结 一句话总结: autoencoder是一种无监督的学习算法,主要用于数据的降维或者特征的抽取,在深度学习中,autoencoder可用于在训练阶段开始前,确定权重矩阵W的初始值。 二、自动编码器(Autoencoder) 转自或参考:自动编码器(Aut 阅读全文
posted @ 2020-07-24 03:05 范仁义 阅读(818) 评论(0) 推荐(0)
摘要:机器学习性能度量 Equal Error Rate (EER) 一、总结 一句话总结: A、EER(the Equal Error Rate)是(一个分类器的)ROC曲线(接受者操作特性曲线)中错分正负样本概率相等的点(所对应的错分概率值)。 B、这个点就是ROC曲线与ROC空间中对角线([0,1] 阅读全文
posted @ 2020-07-24 03:01 范仁义 阅读(4031) 评论(0) 推荐(0)
摘要:自适应增强(Adaptive Boosting) 一、总结 一句话总结: AdaBoost,是英文“Adaptive Boosting”(自适应增强)的缩写,是一种迭代提升算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器) 阅读全文
posted @ 2020-07-24 02:59 范仁义 阅读(1186) 评论(0) 推荐(0)
摘要:特征选择常用算法综述 一、总结 一句话总结: 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好 阅读全文
posted @ 2020-07-24 02:54 范仁义 阅读(278) 评论(0) 推荐(0)
摘要:主成分分析(PCA)原理与实现 一、总结 一句话总结: 主成分分析是一种矩阵的压缩算法,在减少矩阵维数的同时尽可能的保留原矩阵的信息,简单来说就是将 n×m的矩阵转换成n×k的矩阵,仅保留矩阵中所存在的主要特性,从而可以大大节省空间和数据量。 二、主成分分析(PCA)原理与实现 转自或参考:主成分分 阅读全文
posted @ 2020-07-23 23:16 范仁义 阅读(754) 评论(0) 推荐(0)
摘要:感知器算法 一、总结 一句话总结: 1、W转置(k)*xi<=0,就更新权向量即可,W(k+1)=W(k)+cXi 2、只要有一个样本不满足,就重新更新权重,直到所有样本都满足 flag = True while(flag): flag = False for i in range(len(X)): 阅读全文
posted @ 2020-07-23 22:26 范仁义 阅读(654) 评论(0) 推荐(0)
摘要:机器学习准备 4.3、感知器原理与代码 一、总结 一句话总结: 1、W转置(k)*xi<=0,就更新权向量即可,W(k+1)=W(k)+cXi 2、只要有一个样本不满足,就重新更新权重,直到所有样本都满足 flag = True while(flag): flag = False for i in 阅读全文
posted @ 2020-07-23 22:11 范仁义 阅读(377) 评论(0) 推荐(0)
摘要:机器学习基础ROC曲线理解 一、总结 一句话总结: ROC曲线的全称是Receiver Operating Characteristic Curve,中文名字叫“受试者工作特征曲线”,顾名思义,就是评估物品性能。 1、ROC曲线起源? a、ROC曲线起源于第二次世界大战时期雷达兵对雷达的信号判断。当 阅读全文
posted @ 2020-07-23 12:30 范仁义 阅读(1244) 评论(0) 推荐(0)
摘要:机器学习ROC曲线 一、总结 一句话总结: 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 2、roc曲线横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所 阅读全文
posted @ 2020-07-23 04:51 范仁义 阅读(1122) 评论(0) 推荐(1)
摘要:机器学习准备 3、模拟e^x的麦克劳林展开式 一、总结 一句话总结: 1、用麦克劳林展开式模拟函数,比如e^x,阶数越高就越接近 2、e^x=f(0)+ f′(0)x+ f″(0)x ²/ 2!+...+ fⁿ(0)x^n/n!+Rn(x)=1+x+x^2/2!+x^3/3!+...+x^n/n!+ 阅读全文
posted @ 2020-07-23 00:02 范仁义 阅读(1380) 评论(0) 推荐(0)
摘要:机器学习准备 2、梯度下降法 实例 一、总结 一句话总结: 梯度下降法就是当前的x一步步减去梯度乘以学习速率:cur_x = cur_x - grad_cur * learning_rate def gradient_descent_1d(grad, cur_x=0.1, learning_rate 阅读全文
posted @ 2020-07-22 23:05 范仁义 阅读(631) 评论(0) 推荐(0)
摘要:机器学习准备 1、简单线性回归(最小二乘法实例) 一、总结 一句话总结: 1、在本例中,最小二乘法就是计算损失的,就是求出w和b之后计算这对w和b对应的损失(因为本例中w和b是用公式可以求的) 2、而在tensorflow2的例子中,因为w和b是多次试探,所以每次试探的结果就是使最小二乘法对应的损失 阅读全文
posted @ 2020-07-22 14:19 范仁义 阅读(263) 评论(0) 推荐(0)
摘要:线性回归方程如何计算a和b(y=ax+b) 一、总结 一句话总结: 线性回归方程中的a和b都是有公式求的 二、线性回归方程如何计算a和b(y=ax+b) 博客对应课程的视频位置: 阅读全文
posted @ 2020-07-21 19:44 范仁义 阅读(9599) 评论(0) 推荐(0)
摘要:【代价函数】均方误差MSE 一、总结 一句话总结: 在线性回归问题中,常常使用MSE(Mean Squared Error)作为loss函数,而在分类问题中常常使用交叉熵作为loss函数。 1、sigmoid激活函数的问题? a、我们可以从sigmoid激活函数的导数特性图中发现,当激活值很大的时候 阅读全文
posted @ 2020-07-21 15:29 范仁义 阅读(1832) 评论(0) 推荐(0)
摘要:交叉熵损失函数原理详解 一、总结 一句话总结: 1、叉熵损失函数(CrossEntropy Loss):分类问题中经常使用的一种损失函数 2、交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。 3 阅读全文
posted @ 2020-07-21 15:08 范仁义 阅读(3081) 评论(0) 推荐(1)

上一页 1 ··· 6 7 8 9 10 11 12 13 14 15 下一页