随笔分类 -  机器学习常见算法入门

摘要:文章转自公众号【机器学习炼丹术】,关注回复“炼丹”即可获得海量免费学习资料哦! 1 作者前言 在2020年还在整理XGB的算法,其实已经有点过时了。不过,主要是为了扩大知识面和应付面试嘛。现在的大数据竞赛,XGB基本上已经全面被LGB模型取代了,这里主要是学习一下Boost算法。之前已经在其他博文中 阅读全文
posted @ 2020-08-10 05:32 忽逢桃林 阅读(880) 评论(0) 推荐(1)
摘要:文章转自【机器学习炼丹术】 线性回归解决的是回归问题,逻辑回归相当于是线性回归的基础上,来解决分类问题。 1 公式 线性回归(Linear Regression)是什么相比不用多说了。格式是这个样子的: \(f_{w,b}(x)=\sum_i{w_ix_i}+b\) 而逻辑回归(Logistic R 阅读全文
posted @ 2020-08-02 03:13 忽逢桃林 阅读(512) 评论(1) 推荐(0)
摘要:文章来自公众号【机器学习炼丹术】 1 focal loss的概述 焦点损失函数 Focal Loss(2017年何凯明大佬的论文)被提出用于密集物体检测任务。 当然,在目标检测中,可能待检测物体有1000个类别,然而你想要识别出来的物体,只是其中的某一个类别,这样其实就是一个样本非常不均衡的一个分类 阅读全文
posted @ 2020-08-01 19:15 忽逢桃林 阅读(2735) 评论(0) 推荐(0)
摘要:文章来自公众号【机器学习炼丹术】 1 stochastic weight averaging(swa) 随机权值平均 这是一种全新的优化器,目前常见的有SGB,ADAM, 【概述】:这是一种通过梯度下降改善深度学习泛化能力的方法,而且不会要求额外的计算量,可以用到Pytorch的优化器中。 随机权重 阅读全文
posted @ 2020-07-31 22:21 忽逢桃林 阅读(1539) 评论(0) 推荐(1)
摘要:文章来自:一个宝藏微信公众号【机器学习炼丹术】 基本概念 首先,要背住的几个概念就是:accuracy,precision,recal, TP,FP,TN,FN TP:true positive。预测是正确的正样本 FP:false positive。预测是错误的正样本 TN:true negati 阅读全文
posted @ 2020-07-28 06:03 忽逢桃林 阅读(3628) 评论(0) 推荐(1)
摘要:文章来自:公众号【机器学习炼丹术】。求关注~ 其实关于BN层,我在之前的文章“梯度爆炸”那一篇中已经涉及到了,但是鉴于面试经历中多次问道这个,这里再做一个更加全面的讲解。 Internal Covariate Shift(ICS) Batch Normalization的原论文作者给了Interna 阅读全文
posted @ 2020-07-27 16:10 忽逢桃林 阅读(4132) 评论(0) 推荐(0)
摘要:写文章的目的在于之前面试的时候,提到某一个时间序列项目的特征工程处理。我说的大多数都是一些数据清洗、数据去除异常点、针对数据特性做出的特别的特征工程的操作,然后面试官给我的建议是下一次面试多说一下常规的特征工程处理,因为这样面试官才会跟你有共鸣,能更好的理解你说的特征工程是什么。 本文主要讲述一些比 阅读全文
posted @ 2020-07-27 06:40 忽逢桃林 阅读(578) 评论(0) 推荐(0)
摘要:1 基本概述 CLAHE是一个比较有意思的图像增强的方法,主要用在医学图像上面。之前的比赛中,用到了这个,但是对其算法原理不甚了解。在这里做一个复盘。 CLAHE起到的作用简单来说就是增强图像的对比度的同时可以抑制噪声 CLAHE的英文是Contrast Limited Adaptive Histo 阅读全文
posted @ 2020-07-26 23:19 忽逢桃林 阅读(4168) 评论(0) 推荐(0)
摘要:为什么要处理缺失值 这一段完全是废话了。含有缺失数据的样本,你要么删了,要了就填充上什么值。删了就会损失一部分的样本信息,填充要是填充的不合适,会给样本增加噪音。 所以这就是一个选择的问题: 选择删除还是填充; 选择填充方式 处理缺失值的8种方法 这里先说一下,我总结了自己在竞赛中的操作,以及一些大 阅读全文
posted @ 2020-07-26 07:12 忽逢桃林 阅读(3826) 评论(0) 推荐(0)
摘要:文章来自:一个宝藏公众号【机器学习炼丹术】 在SVM中,将约束问题转化成非约束问题采用到了拉格朗日乘子法。这个文章就讲一下拉格朗日乘子法与KKT约束是怎么回事。本人不是数学科班出身,但是也只能硬着头皮讲一讲了。 从零理解 现在我们要解决这样一个问题: \(x^2y=3\) 这个函数距离原点最近的距离 阅读全文
posted @ 2020-07-25 20:45 忽逢桃林 阅读(1880) 评论(0) 推荐(1)
摘要:非极大抑制 NMS的英文是Non-maximum suppression的缩写。 简单的说,就是模型给出了多个重叠在一起的候选框,我们只需要保留一个就可以了。其他的重叠的候选框就删掉了,效果可见下图: 交并比 IoU的英文全称Intersection over Union,就是两个候选框区域的交集面 阅读全文
posted @ 2020-07-25 02:57 忽逢桃林 阅读(794) 评论(0) 推荐(0)
摘要:本文主要是回顾一下一些经典的CNN网络的主要贡献。 论文传送门 【google团队】 [2014.09]inception v1: https://arxiv.org/pdf/1409.4842.pdf [2015.02]inception v2: https://arxiv.org/pdf/150 阅读全文
posted @ 2020-07-24 22:21 忽逢桃林 阅读(856) 评论(0) 推荐(0)
摘要:这是个人在竞赛中对LGB模型进行调参的详细过程记录,主要包含下面六个步骤: 大学习率,确定估计器参数n_estimators/num_iterations/num_round/num_boost_round; 确定num_leaves和max_depth 确定min_data_in_leaf 确定b 阅读全文
posted @ 2020-07-23 01:02 忽逢桃林 阅读(5526) 评论(0) 推荐(2)
摘要:SVM现在主流的有两个方法。一个是传统的推导,计算支持向量求解的方法,一个是近几年兴起的梯度下降的方法。 梯度下降方法的核心是使用了hinge loss作为损失函数,所以最近也有人提出的深度SVM其实就是使用hinge loss的神经网络。 本文的目的是讲解传统的推导。 SVM的超平面 SVM模型的 阅读全文
posted @ 2020-07-22 17:17 忽逢桃林 阅读(778) 评论(0) 推荐(0)
摘要:卷积网络的平移不变性可能会经常在论文中看到,那这个到底是什么呢?看了一些论文的原文和网络上十几篇讲这个的博文,大概捋清了思路然后写下这个。不得不说,有的博文讲的有那么点问题。 1 什么是不变性 【不变性】就是目标发生了变换,但是你依然可以识别出来。在图像任务中,我们希望图像中的目标即使被平移、被旋转 阅读全文
posted @ 2020-07-22 01:31 忽逢桃林 阅读(2514) 评论(0) 推荐(0)
摘要:作者前言 在2020年还在整理XGB的算法,其实已经有点过时了。。不过,主要是为了学习算法嘛。现在的大数据竞赛,XGB基本上已经全面被LGB模型取代了,这里主要是学习一下Boost算法。之前已经在其他博文中介绍了Adaboost算法和Gradient-boost算法,这篇文章讲解一下XGBoost。 阅读全文
posted @ 2020-06-22 20:58 忽逢桃林 阅读(1891) 评论(0) 推荐(0)
摘要:先缕一缕几个关系: GBDT是gradient-boost decision tree GBDT的核心就是gradient boost,我们搞清楚什么是gradient boost就可以了 GBDT是boost中的一种方法,boost还有XGBoost,adaboost。 基本概念 【Boost】就 阅读全文
posted @ 2020-06-22 03:29 忽逢桃林 阅读(681) 评论(0) 推荐(0)
摘要:梯度消失问题和梯度爆炸问题,总的来说可以称为梯度不稳定问题。 【要背住的知识】:用ReLU代替Sigmoid,用BN层,用残差结构解决梯度消失问题。梯度爆炸问题的话,可以用正则化来限制。sigmoid的导数是【0,0.25】. 出现原因 两者出现原因都是因为链式法则。当模型的层数过多的时候,计算梯度 阅读全文
posted @ 2020-06-21 18:51 忽逢桃林 阅读(12440) 评论(0) 推荐(0)
摘要:boosting Boosting 算法的特点在于:将表现一般的弱分类器通过组合变成更好的模型。代表自然就是我们的随即森林了。 GBDT和Adaboost是boost算法中比较常见的两种,这里主要讲解Adaboost。 Adaboost Adaboost算法的核心就是两个权重。对于数据有一个权重,权 阅读全文
posted @ 2020-06-21 06:44 忽逢桃林 阅读(838) 评论(0) 推荐(0)
摘要:线性回归解决的是回归问题,逻辑回归相当于是线性回归的基础上,来解决分类问题。 公式 线性回归(Linear Regression)是什么相比不用多说了。格式是这个样子的: \(f_{w,b}(x)=\sum_i{w_ix_i}+b\) 而逻辑回归(Logistic Regression)的样子呢? 阅读全文
posted @ 2020-06-20 02:48 忽逢桃林 阅读(644) 评论(0) 推荐(0)