随笔分类 -  ML基础

摘要:https://www.zhihu.com/search?type=content&q=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95 待整理 阅读全文
posted @ 2020-06-24 10:55 猪突猛进!!! 阅读(111) 评论(0) 推荐(0)
摘要:https://zhuanlan.zhihu.com/p/30003899 待整理 阅读全文
posted @ 2020-06-19 11:23 猪突猛进!!! 阅读(129) 评论(0) 推荐(0)
摘要:待整理 https://www.zhihu.com/question/304163753/answer/544397323 阅读全文
posted @ 2020-05-29 10:04 猪突猛进!!! 阅读(121) 评论(0) 推荐(0)
摘要:前言: 之前写过一篇关于SVM的博客,感觉适合入门用,这篇是用来准备面试的~ 1.支持向量 1.1 线性可分 首先我们先来了解下什么是线性可分,如下图所示: 在二维空间上,两类点被一条直线完全分开叫做线性可分。 严格的数学定义是:$D_{0}$ 和 $D_{1}$是$n$维欧氏空间中的两个点集。如果 阅读全文
posted @ 2020-05-18 19:27 猪突猛进!!! 阅读(410) 评论(0) 推荐(0)
摘要:前言 在机器学习应用中,经常会使用一些激活函数,例如:sigmoid、ReLU等。这里简单记录总结一下为什么要用激活函数、怎么去选择激活函数 为什么要用激活函数 以下是激活函数具备的一些性质,也就是我们为什么要使用激活函数的原因: 非线性:当激活函数是非线性的时候,多次网络才能够去逼近任意的函数。 阅读全文
posted @ 2020-05-15 09:48 猪突猛进!!! 阅读(451) 评论(0) 推荐(0)
摘要:前言 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将按照以下顺序进行介绍: 概率与 阅读全文
posted @ 2020-04-29 20:03 猪突猛进!!! 阅读(534) 评论(0) 推荐(0)
摘要:转自:https://zhuanlan.zhihu.com/p/46448216 这个系列都是为了面试复习准备的,有一些参考李航老师的统计学习方法,有一些则是借鉴于知乎的一些大佬,话不多说,干正事。 1. 什么是KNN 2. K值对估计误差、近似误差的影响 3.KNN的实现 这里简单补充一下k值如何 阅读全文
posted @ 2020-04-26 10:36 猪突猛进!!! 阅读(113) 评论(0) 推荐(0)
摘要:一、主成分分析(PCA) 主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1。之后对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差的和(所需要保存的信息量)最大的,方差表示在新变量上信 阅读全文
posted @ 2020-04-26 09:01 猪突猛进!!! 阅读(316) 评论(0) 推荐(0)
摘要:引言: 这篇小结是为了准备面试而写的,从决策树的基本概念到决策树的学习再到决策树的剪枝,粗中有细,话不多说开始咯。 决策树模型 决策树模型是一个有监督的分类模型,其本质是选择一个能带来最大信息增益的特征进行节点分裂,直到满足某些约束条件例如叶子结点纯度到达一定阈值。下图为决策树的一个示例: 1.决策 阅读全文
posted @ 2020-04-24 16:23 猪突猛进!!! 阅读(542) 评论(0) 推荐(0)
摘要:1. 模型介绍 Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。在正式介绍模型之前,先聊一聊Logitstic分布。 1.1 逻辑斯谛分布(logistic distri 阅读全文
posted @ 2020-04-22 14:59 猪突猛进!!! 阅读(1118) 评论(0) 推荐(0)
摘要:RF与GBDT的区别 1. 相同点: 都是基于树模型的集成学习方法 最终的结果都是由多颗树一起决定 2. 不同点: RF的基学习器可以是分类树也可以是回归树,GBDT只由回归树组成 RF可以并行生成,GBDT只能串行 RF的结果为多数表决或者平均值,GBDT则是多颗树累加之和 RF对异常值不太敏感( 阅读全文
posted @ 2020-04-21 18:24 猪突猛进!!! 阅读(1153) 评论(0) 推荐(0)
摘要:1. 回归(Regression)算法指标 Mean Absolute Error 平均绝对误差 Mean Squared Error 均方误差 Root Mean Squared Error:均方根误差 Coefficient of determination 决定系数 以下为一元变量和二元变量的 阅读全文
posted @ 2020-04-16 21:24 猪突猛进!!! 阅读(1443) 评论(0) 推荐(0)
摘要:转自:https://zhuanlan.zhihu.com/p/77686118 前言: 在正文开始之前,先说一下关于Loss Function、Cost Function 和Objective Function的区别和联系。在机器学习的语境下这三个术语经常交叉使用。 损失函数 (Loss Func 阅读全文
posted @ 2020-04-15 15:32 猪突猛进!!! 阅读(787) 评论(0) 推荐(0)
摘要:介绍 集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。 在第一部分中,我们会讨论从提交文件中建立集成。主要包括: 投票集成 平均 排名平均 第二部分我们会讨论 通过 generalization/blending等方法来创建集成。 阅读全文
posted @ 2020-04-07 20:21 猪突猛进!!! 阅读(987) 评论(0) 推荐(0)
摘要:理论来说,如果不同的模型在评分上类似但是结果上差异较大,那么这些不同的模型融合效果会比较理想. 内容简介 1. 简单加权融合: 回归(分类概率):算术平均融合,集合平均融合(权重的差异不宜过大) 分类:投票(Voting) 综合: 综合排序(Rank averaging),log融合 (分线性) 2 阅读全文
posted @ 2020-04-06 20:44 猪突猛进!!! 阅读(512) 评论(0) 推荐(0)
摘要:模型评估 使用metric函数来进行评分 sklearn.metrics里面提供了一些函数来帮助我们进行评分。其中里面以_score结尾的函数的返回值越大,模型的性能越好。而以_error或_loss结尾的函数,返回值越小,表示模型性能越好。从命名上来看,这一点不难理解。 metrics里面的很多函 阅读全文
posted @ 2020-04-06 20:32 猪突猛进!!! 阅读(1475) 评论(0) 推荐(0)
摘要:定义: 将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。主要有以下五个部分 数据理解(主要在EDA部分完成) 数据清洗 特征构造 特征选择 类别不平衡问题解决 数据清洗(注意,这部分只在训练集上进行) 目的:提高数据质量,降低算法用错误数据建模的风险 1. 特征变换: 模型无法处理或者 阅读全文
posted @ 2020-03-30 16:56 猪突猛进!!! 阅读(574) 评论(0) 推荐(0)
摘要:定义 探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一般有以下几个目的: 弄清楚数据的含义 发现数据的结构 锁定一些重要的特征(通过观察该特征不同值对应的 阅读全文
posted @ 2020-03-29 20:56 猪突猛进!!! 阅读(1794) 评论(0) 推荐(0)
摘要:Datawhale 零基础入门数据挖掘-Task2 数据分析 二、 EDA-数据探索性分析 2.1 EDA目标 弄清楚数据的结构以及数据能够表达出的东西 尝试结合题目的描述锁定一些重要的特征 找出一些离群的值、异常值 找出一个适用于该赛题的模型 2.2 内容介绍 载入各种数据科学以及可视化库: 数据 阅读全文
posted @ 2020-03-28 19:52 猪突猛进!!! 阅读(857) 评论(0) 推荐(0)
摘要:我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。 偏度 偏度是数据的不对称程度。无论偏度值是 0、正数还是负数,都显示有关数据分布形状的信息。 图 A 图 阅读全文
posted @ 2020-03-25 18:11 猪突猛进!!! 阅读(5578) 评论(0) 推荐(0)