随笔分类 - 机器学习
摘要:最大熵模型 最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。 最大熵原理
阅读全文
摘要:不均衡学习的抽样方法 通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。 研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法
阅读全文
摘要:黑塞矩阵是由目标函数 在点X处的二阶偏导数组成的 阶对称矩阵 数据科学家需要了解的45个回归问题测试题(附答案) 1.L1与L2区别?L1为啥具有稀疏性? L1是向量各元素的绝对值之和,L2是向量各元素的平方和 l1求导(弱导数)后,在x=0附近其系数相比l2的导数2x大,导致l1罚产生了主导作用,
阅读全文
摘要:详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索 方法框架: 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。 单因素研究:只关注因变量( SalePrice),并且进行更深入的了解。 多因素研究:分析因变量和自变量之间的关系。 基础清洗:清洗数据集
阅读全文
摘要:高维数据的聚类分析 高维聚类研究方向 高维数据聚类的难点在于: 1、适用于普通集合的聚类算法,在高维数据集合中效率极低 2、由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇。 在高维聚类的研究中有如下几个研究重点: 1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变
阅读全文
摘要:线性可分支持向量机 函数间隔和几何间隔 max(2/||w||) 或min((1/2)*||w||) 原始问题的对偶问题是极大极小问题 maxaminw,b 1.对w,b求偏导数并令其等于0 2.KKT条件 从KKT条件可知,对偶问题解出的α参数,仅support vectors的αi非零,其余全0
阅读全文
摘要:概述 鉴于决策树容易过拟合的缺点,随机森林采用多个决策树的投票机制来改善决策树,我们假设随机森林使用了m棵决策树,那么就需要产生m个一定数量的样本集来训练每一棵树,如果用全样本去训练m棵决策树显然是不可取的,全样本训练忽视了局部样本的规律,对于模型的泛化能力是有害的 产生n个样本的方法采用Boots
阅读全文
摘要:CS231n之线性分类器 斯坦福CS231n项目实战(二):线性支持向量机SVM CS231n 2016 通关 第三章-SVM与Softmax cs231n:assignment1——Q3: Implement a Softmax classifier cs231n线性分类器作业:(Assignme
阅读全文
摘要:Canopy聚类算法(经典,看图就明白) 聚类算法。 这个算法获得的并不是最终结果,它是为其他算法服务的,比如k-means算法。它能有效地降低k-means算法中计算点之间距离的复杂度。 图中有一个T1,一个T2,我们称之为距离阀值,显然T1>T2,这两个值有什么用呢?我们先确定了一个中心,然后计
阅读全文
摘要:AdaBoost是一种迭代型的算法,其核心思想是针对同一个训练集训练不同的学习算法,即弱学习算法,然后将这些弱学习算法集合起来,构造一个更强的最终学习算法。 用于二分类或多分类的应用场景 在AdaBoost算法中,有两个权重,第一个是训练集中每个样本有一个权重,称为样本权重,用向量D表示;另一个是每
阅读全文
摘要:Flappy Bird Q-learning Q-learning 走出房间 一个强化学习 Q-learning 算法的简明教程 强化学习概念 http://www.cnblogs.com/yifdu25/p/8169226.html 强化学习是一种不同于监督学习和无监督学习的在线学习技术。它把学习
阅读全文
摘要:机器学习(8) -- 降维 核心思想:将数据沿方差最大方向投影,数据更易于区分 简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法。 对于正交属性空间(对2维空间即为直角坐标系)中的样本点,如何用一个超平面(直线/平面的高维推广)对所有样本进行恰当的表达? 事实上,若存在这样的超平面,那
阅读全文
摘要:机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱 总结: 离线评估:经常使用的有准确率(accuracy)、精确率-召回率(precision-recall) 在线评估:一般使用一些商业评价指标,如用户生命周期值(customer lifeti
阅读全文
摘要:1.决策树 :监督学习 决策树是一种依托决策而建立起来的一种树。 在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。 决策树仅有
阅读全文
摘要:ROC曲线: 横轴:假阳性率 代表将负例错分为正例的概率 纵轴:真阳性率 代表能将正例分对的概率 AUC是ROC曲线下面区域得面积。 与召回率对比: AUC意义: 任取一对(正、负)样本,把正样本预测为1的概率大于把负样本预测为1的概率的概率。基于上述,AUC反映的是分类器对样本的排序能力,如果进行
阅读全文
摘要:一、范数 L1、L2这种在机器学习方面叫做正则化,统计学领域的人喊她惩罚项,数学界会喊她范数。 L0范数 表示向量xx中非零元素的个数。 L1范数 表示向量中非零元素的绝对值之和。 L2范数 表示向量元素的平方和再开平方 在p范数下定义的单位球(unit ball)都是凸集(convex set,简
阅读全文
摘要:1.损失函数/代价函数是对模型或者算法的准确性的最直接的描述(对于二分类问题来说就是能不能正确分类的能力),而目标函数则是损失函数/代价函数的递进,目标函数考虑的可能不仅仅有模型算法的准确性,还可能要考虑模型的复杂度,可解释度等等的问题(比如目标函数在损失函数的基础之上加上各种正则项)。 当然最简单
阅读全文
摘要:1.输出: 线性回归输出是连续的、具体的值(如具体房价123万元) 回归 逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的二分类)的问题 分类 2.假设函数 线性回归: θ数量与x的维度相同。x是向量,表示一条训练数据 逻辑回归:增加了sigmoid函数 逻辑斯蒂回归
阅读全文
摘要:https://mp.weixin.qq.com/s/e0jXXCIhbaZz7xaCZl-YmA 不均衡的数据通常来说形式都比较固定,并且也比较好区分.比如说你手头上现在有苹果和梨,在这个时候你手中的数据都跟你说,全世界的人都吃梨哦,这个时候你去找一个路人甲,问问他你是不是喜欢吃梨啊,这个时候我们
阅读全文

浙公网安备 33010602011771号