随笔分类 - 机器学习理论基础
摘要:四、逻辑回归 6、逻辑回归实现二分类 (1)对于每个样本x利用线性回归模型得到输出z: (2)将线性回归模型的输出z利用sigmoid函数得到概率: (3)构造损失函数: (4)损失函数关于向量W=( w0 , ... , wd )的函数,求损失函数的梯度: 由于: 所以: 由于: 所以: 由于: 
        阅读全文
            
摘要:四、逻辑回归 5、梯度下降法 (1)梯度解释 偏导数:简单来说是对于一个多元函数,选定一个自变量并让其他自变量保持不变,只考察因变量与选定自变量的变化关系。 梯度:梯度的本意是一个向量,由函数对每个参数的偏导组成,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向变化最快,
        阅读全文
            
摘要:四、逻辑回归 逻辑回归是属于机器学习里面的监督学习,它是以回归的思想来解决分类问题的一种非常经典的二分类分类器。由于其训练后的参数有较强的可解释性,在诸多领域中,逻辑回归通常用作baseline模型,以方便后期更好的挖掘业务相关信息或提升模型性能。 1、逻辑回归思想 当一看到“回归”这两个字,可能会
        阅读全文
            
摘要:三、线性回归 5、线性回归训练流程 线性回归模型训练流程如下: 6、线性回归的正规方程解 对线性回归模型,假设训练集中 m个训练样本,每个训练样本中有 n个特征,可以使用矩阵的表示方法,预测函数可以写为: Y = hetaX 其损失函数可以表示为: 其中,标签 Y 为 mx1 的矩阵,训练特征 X 
        阅读全文
            
摘要:一、预备知识 1、凸函数 凸函数:对于一元函数f(x),如果对于任意tϵ[0,1]均满足 f(tx1+(1−t)x2) ≤ tf(x1)+(1−t)f(x2) 。 凸函数特征: (1)凸函数的割线在函数曲线的上方。 (2)凸函数具有唯一的极小值,该极小值就是最小值。也就意味着我们求得的模型是全局最优
        阅读全文
            
摘要:2 模型评估与选择 2.1评估方法 2.1.1训练集和测试集 实例1:鸢尾花数据集(Iris) 鸢尾花数据集(Iris)是一个经典数据集。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于
        阅读全文
            
摘要:六、sklearn中的分类性能指标 机器学习中常使用 sklearn 完成对模型分类性能的评估,我们需要掌握使用 sklearn 提供的以下接口: accuracy_score 准确度 precision_score 精准率 recall_score 召回率 f1_score F1 Score ro
        阅读全文
            
摘要:五、衡量分类任务的性能指标 5、ROC曲线与AUC (1)ROC曲线 ROC曲线( Receiver Operating Cha\fracteristic Curve )描述的 TPR ( True Positive Rate )与 FPR ( False Positive Rate )之间关系的曲
        阅读全文
            
摘要:五、衡量分类任务的性能指标 3、精准度与召回率 精准率(Precision)指的是模型预测为 Positive 时的预测准确度,其计算公式如下: 召回率(Recall)指的是我们关注的事件发生了,并且模型预测正确了的比值,其计算公式如下: 混淆矩阵: 真实预测01 0 TN FP 1 FN TP 举
        阅读全文
            
摘要:五、衡量分类的性能指标 1、准确度的陷阱 准确度(正确率)越高就能说明模型的分类性能越好吗? 答:非也!举个例子,现在我开发了一套癌症检测系统,只要输入你的一些基本健康信息,就能预测出你现在是否患有癌症,并且分类的准确度为 0.999。但是我们知道,一般年轻人患癌症的概率非常低,假设患癌症的概率为 
        阅读全文
            
摘要:四、衡量回归的性能指标 1、均方误差-MSE(Mean Squared Error) 其中y^i表示第 i 个样本的真实标签,p^i表示模型对第 i 个样本的预测标签。 线性回归的目的就是让损失函数最小。那么模型训练出来了,我们在测试集上用损失函数来评估模型就行了。 2、均方根误差-RMSE(Roo
        阅读全文
            
摘要:三、评估方法 1、留出法(hold-out) 直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D = S ∪ T,S ∩ T = ø 。在 S 上训练出模型后,用 T 来评估其测试误差,作为对泛化误差的估计。 举例: 以二分类任务为例,假定 D 包含1000个样本
        阅读全文
            
摘要:一、经验误差与拟合 1、模型的评估 机器学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会训练出不同的模型,不同的模型可能会对未知数据作出不同的预测,所以,如何评价模型好坏,并选择出好的模型是我们所学的重点。 2、训练集与测试集 (1)为什么要划分训练集和测试
        阅读全文
            
摘要:五、机器学习发展史 1、机器学习发展阶段 (1)基础奠定的热烈时期: 20世纪50年代初到60年代中叶 (2)停滞不前的冷静时期: 20世纪60年代中叶到70年代末 (3)重拾希望的复兴时期: 20世纪70年代末到80年代中叶 (4)现代机器学习的成型时期: 20世纪90年初到21世纪初 (5)大放
        阅读全文
            
摘要:一、引言 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。 在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生的“模型”的算法,即“学习算法”。有了学习算法,我们就把经验数据提供给它,它就能基于这些数据产生模型,在面对新
        阅读全文
            
摘要:一、什么是机器学习?简述机器学习的一般过程。 机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。 一个机器学习过程主要分为三个阶段: (1)训练阶段,训练阶段的主要工作是根据训练数据建立模型。 (2)测试阶段,测试阶段的主要工作是利用验证集对模型评估与选择 (3)工作阶
        阅读全文
            

 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号