随笔分类 -  机器学习

摘要:1、Adaboost算法概述¶ 集成学习按照个体学习器之间是否存在依赖关系进行划分,主要代表算法是bagging系列算法和boosting系列算法,今天主要讲述的是boosting系列代表算法之Adaboost。Adaboost算法不需要预先知道弱学习算法学习正确率的下限,并且最后得到的强分类器的分 阅读全文
posted @ 2020-02-29 21:56 雨中漫步人生
摘要:1、数据预处理概述¶ 数据预处理是构建特征工程的基本环境,并且是提高算法精确度的有效手段。数据预处理需要根据数据本身的特性进行,不同的格式有不同的处理要求,比如无效的要剔除,缺失值要回填和冗余维度的选择等。大致主要分为三个步骤:数据的准备、转换和输出。本文主要利用sklearn讲解转换数据的常用方法 阅读全文
posted @ 2020-02-17 14:50 雨中漫步人生
摘要:随机森林的主要作用是降低模型的复杂度,解决模型的过拟合问题。 1、随机森林概述¶ 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。 2、随机森林算法流程¶ 随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森 阅读全文
posted @ 2020-02-10 12:19 雨中漫步人生
摘要:集成算法目标:集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。 1、集成学习概述¶ 集成学习(Ensemble learning)通过构建并结合多个学习器来完成学习任务。一般结构为:先产生一组“个体学习器”,再用某种策略将它们结合起来。但要获 阅读全文
posted @ 2020-02-07 11:10 雨中漫步人生
摘要:1、逻辑回归概述¶ 逻辑回归假设数据服从伯努利分布,通过极大化似然函数方法,运用梯度下降来求解参数,来达到将数据二分目的。本质上就是LR模型可以被认为就是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型 。 Logistic Regression方程如下: $$P(y=1|x 阅读全文
posted @ 2020-01-12 22:00 雨中漫步人生
摘要:1、决策树概述¶ 决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合(互斥并且完备),也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学 阅读全文
posted @ 2020-01-06 14:54 雨中漫步人生