随笔分类 - Machine Learning
摘要:motivation:让模型学习到更复杂的非线性特征。 method:原始特征 + 组合特征。 notes: 连续特征和离散特征都可以做交叉。 HOW TO? 离散特征:笛卡尔积 比如属性A有三个特征,属性B有两个特征,笛卡尔积后就有六个组合特征,然后用one hot 或其他embedding方式给
阅读全文
摘要:AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积, 对于二分类模型,还有很多其他评价指标,比如 logloss,accuracy,precision。如果你经常关注数据挖掘比赛,比如 kaggle,那你会发现 AUC 和 logloss 基本是最
阅读全文
摘要:投票法(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。 分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(So
阅读全文
摘要:目录 1.准确率(Accuracy) 2.召回率(Recall) 3.精确率(Precision) 4.召回率与精确率的关系 5.误报率(FPR)与漏报率(FNR) 1.准确率(Accuracy) 准确率是指我们的模型预测正确的结果所占的比例。 正式点说,准确率的定义如下: $Accuracy =
阅读全文
摘要:Baggging 和Boosting都是模型融合/集成学习的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。 Bagging Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样
阅读全文
摘要:概念 偏差: 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据集。 (假设靶心是最适合给定数据的模型,离靶心越远,我们的预测就越糟糕) 方差: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,预测结果数据的分布越散。 基于偏差的误差: 模型预期的预测与
阅读全文
摘要:定义 以二分类问题为例,假设我们的数据集是S,数据集中的多数类为S_maj,少数类为S_min,通常情况下把多数类样本的比例为100:1,1000:1,甚至是10000:1,这种情况下为不平衡数据,不平衡数据的学习即需要在如此分布不均匀的数据集中学习到有用的信息。 问题:不均衡的数据理解预测起来很简
阅读全文
摘要:数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘 一、解决数据质量问题 数据的完整性,比如人的属性中缺少性别、籍贯、年龄等 数据的唯一性,比如不同来源的数据出现重复的情况 数据的权威性,比如同一个指标出现多个来源的数据,且数值不一样 数据的合法性,比如数据与常识不符,市区内开车速度到达了4
阅读全文
摘要:自我训练是一种增量算法(incremental algorithm): 场景: 半监督学习,具备一小部分有标记样本和大量未标记样本,通常存在大量样本标注困难的问题。 基本流程: 1. 最初,使用少量标记数据构建单个分类器。 2. 然后,迭代地预测未标记样本的标签。 3. 通过2中预测结果的可信程度对
阅读全文
摘要:直推学习实际上是半监督学习的一部分。 如果用来学习的数据中未标记数据就是最终要预测的数据,那么就是直推学习; 如果不知道最后用来预测的数据是什么,就是单纯的半监督学习。
阅读全文
摘要:1、似然函数 概率和似然的区别:概率是已知参数的条件下预测未知事情发生的概率,而似然性是已知事情发生的前提下估计模型的参数。我们通常都是将似然函数取最大值时的参数作为模型的参数。 那么为何要取似然函数取最大值的参数作为模型的参数?我们基于这样的假设:对于已经发生的事情,在同样条件下再次发生的概率就会
阅读全文
摘要:(一)马尔可夫随机场(Markov random field,无向图模型) (二)条件随机场(Conditional random field,CRF) (一)马尔可夫随机场 概率图模型(Probabilistic graphical model,PGM)是由图表示的概率分布。概率无向图模型(Pro
阅读全文
摘要:定义: MEMM是这样的一个概率模型,即在给定的观察状态和前一状态的条件下,出现当前状态的概率。 Ø S表示状态的有限集合 Ø O表示观察序列集合 Ø Pr(s|s’,o):观察和状态转移概率矩阵 Ø 初始状态分布:Pr0(s) 注:O表示观察集合,S表示状态集合,M表示模型 最大熵马尔科夫模型
阅读全文
摘要:摘要 以前的对抗攻击关注于静态输入,这些方法对流输入的目标模型并不适用。攻击者只能通过观察过去样本点在剩余样本点中添加扰动。 这篇文章提出了针对于具有流输入的机器学习模型的实时对抗攻击。 1 介绍 在实时处理场景中,攻击者只能观察数据样本的过去部分,并且只能向数据样本的未来部分添加扰动,而目标模型的
阅读全文
摘要:namedtuple 不必再通过索引值进行访问,你可以把它看做一个字典通过名字进行访问,只不过其中的值是不能改变的。 sorted()适用于任何可迭代容器,list.sort()仅支持list(本身就是list的一个方法) np.linalg.norm(求范数) namedtuple 不必再通过索引
阅读全文
摘要:第3章 k近邻法 第3章 k近邻法 第3章 k近邻法 第3章 k近邻法 1.近邻法是基本且简单的分类与回归方法。近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的个最近邻训练实例点,然后利用这个训练实例点的类的多数来预测输入实例点的类。 2.近邻模型对应于基于训练数据集对特征空
阅读全文
摘要:numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) 在指定的间隔内返回均匀间隔的数字。 返回num均匀分布的样本,在[start, stop]。 这个区间的端点可以任意的被排除在外。 Parame
阅读全文
摘要:Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题。 Scipy是由针对特定任务的子模块组成: 模块名应用领域 scipy.cluster 向量
阅读全文
摘要:np.random.rand()函数 语法: np.random.rand(d0,d1,d2……dn) 注:使用方法与np.random.randn()函数相同 作用: 通过本函数可以返回一个或一组服从“0~1”均匀分布的随机样本值。随机样本取值范围是[0,1),不包括1。 应用:在深度学习的Dro
阅读全文
摘要:第1章 统计学习方法概论 第1章 统计学习方法概论 第1章 统计学习方法概论 第1章 统计学习方法概论 1.统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。 2.统计学习方法三要素——模型、策略、算法,对理
阅读全文