2020 年 5月 16 日随笔档案 - enhaofrank

集成学习

摘要：集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统。集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。根据个体学习器的生成方式，目前的集成学习方法大致可以分为两大类，即个体学习器间存在强依赖关系，必须串行生成的序列化方法，以及个体学习器间不存在强依赖阅读全文

posted @ 2020-05-16 20:56 enhaofrank 阅读(253) 评论(0) 推荐(0)

分类模型之决策树

摘要：决策树是基于树结构来进行决策的，一般的，决策树包含一个根结点，若干个内部结点和若干个叶结点，叶结点对应于决策结果，其他每个结点则对应于一个属性测试，每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产阅读全文

posted @ 2020-05-16 16:35 enhaofrank 阅读(456) 评论(0) 推荐(0)

数据处理以及建模完整流程

摘要：在数据挖掘工作中，数据预处理对于结果的影响是非常重要的，所以在这方面需要多花时间探索。这里，我介绍一些数据预处理的流程以及方法：首先，拿到数据之后，我们先把数据读进来： ### code ### import numpy as np import pandas as pd import pand 阅读全文

posted @ 2020-05-16 11:09 enhaofrank 阅读(1237) 评论(0) 推荐(0)

分类模型之朴素贝叶斯

摘要：朴素贝叶斯是基于概率论的一种分类方法，他的核心思想是选择高概率对应的类别。优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式较为敏感适用数据类型：标称型数据参考资料 1、机器学习实战阅读全文

posted @ 2020-05-16 11:07 enhaofrank 阅读(347) 评论(0) 推荐(0)

分层采样

摘要：训练和测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程中引入额外的偏差而对最终结果产生影响，例如在分类任务重至少要保持样本的类别比例相似，如果从采样的角度来看待数据集的划分过程，则保留类别比例的采样方式通常称为“分层采样”。就是训练和测试的数据集中，正负样本比例一致，即训练集中正负比例为阅读全文

posted @ 2020-05-16 11:06 enhaofrank 阅读(823) 评论(0) 推荐(0)

分类模型之逻辑回归

摘要：逻辑回归是分类模型中经常使用的，在介绍逻辑回归之前，我们先来介绍下回归，假设现在我们手上有一些数据，我们用一条直线或者曲线对这些点进行拟合，这个拟合的过程就叫做回归。那么逻辑回归分类算法呢，也是根据数据对分类边界线建立回归公式，以此进行分类。优点：计算代价不高，易于理解和实现缺点：容易欠拟合，分阅读全文

posted @ 2020-05-16 10:51 enhaofrank 阅读(374) 评论(0) 推荐(0)

聚类算法之k-均值聚类

摘要： k-均值聚类算法 Kmeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类阅读全文

posted @ 2020-05-16 10:49 enhaofrank 阅读(1278) 评论(0) 推荐(0)

聚类算法总览

摘要：聚类分析就是在没有给定类别标签的情况下，根据数据相似性来进行分组的方法，是一种无监督的算法。聚类根据数据自身的距离或相似度将其划分为若干组，划分的原则是组内距离最小化而组间距离最大化。常用聚类方法类别包括的主要算法划分方法 k-means(k-平均)、k-medoids(k-中心点)、Cla 阅读全文

posted @ 2020-05-16 10:47 enhaofrank 阅读(445) 评论(0) 推荐(0)

分类模型之支持向量机

摘要：支持向量机，构建分类器，使得数据远离决策边界。找到距离分割超平面最近的点，确保他们离分割面的距离尽可能远。这些点成为支持向量。优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据。参考资料阅读全文

posted @ 2020-05-16 10:46 enhaofrank 阅读(396) 评论(0) 推荐(0)

enhaofrank