博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2020年5月16日

集成学习

摘要: 集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。 集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。 根据个体学习器的生成方式,目前的集成学习方法大致可以分为两大类,即个体学习器间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖 阅读全文

posted @ 2020-05-16 20:56 enhaofrank 阅读(211) 评论(0) 推荐(0) 编辑

分类模型之决策树

摘要: 决策树是基于树结构来进行决策的,一般的,决策树包含一个根结点,若干个内部结点和若干个叶结点,叶结点对应于决策结果,其他每个结点则对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产 阅读全文

posted @ 2020-05-16 16:35 enhaofrank 阅读(391) 评论(0) 推荐(0) 编辑

数据处理以及建模完整流程

摘要: 在数据挖掘工作中,数据预处理对于结果的影响是非常重要的,所以在这方面需要多花时间探索。 这里,我介绍一些数据预处理的流程以及方法: 首先,拿到数据之后,我们先把数据读进来: ### code ### import numpy as np import pandas as pd import pand 阅读全文

posted @ 2020-05-16 11:09 enhaofrank 阅读(1111) 评论(0) 推荐(0) 编辑

分类模型之朴素贝叶斯

摘要: 朴素贝叶斯是基于概率论的一种分类方法,他的核心思想是选择高概率对应的类别。 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 参考资料 1、机器学习实战 阅读全文

posted @ 2020-05-16 11:07 enhaofrank 阅读(317) 评论(0) 推荐(0) 编辑

分层采样

摘要: 训练和测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程中引入额外的偏差而对最终结果产生影响,例如在分类任务重至少要保持样本的类别比例相似,如果从采样的角度来看待数据集的划分过程,则保留类别比例的采样方式通常称为“分层采样”。就是训练和测试的数据集中,正负样本比例一致,即训练集中正负比例为 阅读全文

posted @ 2020-05-16 11:06 enhaofrank 阅读(720) 评论(0) 推荐(0) 编辑

分类模型之逻辑回归

摘要: 逻辑回归是分类模型中经常使用的,在介绍逻辑回归之前,我们先来介绍下回归,假设现在我们手上有一些数据,我们用一条直线或者曲线对这些点进行拟合,这个拟合的过程就叫做回归。那么逻辑回归分类算法呢,也是根据数据对分类边界线建立回归公式,以此进行分类。 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分 阅读全文

posted @ 2020-05-16 10:51 enhaofrank 阅读(353) 评论(0) 推荐(0) 编辑

聚类算法之k-均值聚类

摘要: k-均值聚类算法 Kmeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类 阅读全文

posted @ 2020-05-16 10:49 enhaofrank 阅读(1015) 评论(0) 推荐(0) 编辑

聚类算法总览

摘要: 聚类分析就是在没有给定类别标签的情况下,根据数据相似性来进行分组的方法,是一种无监督的算法。聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组间距离最大化。 常用聚类方法 类别 包括的主要算法 划分方法 k-means(k-平均)、k-medoids(k-中心点)、Cla 阅读全文

posted @ 2020-05-16 10:47 enhaofrank 阅读(356) 评论(0) 推荐(0) 编辑

分类模型之支持向量机

摘要: 支持向量机,构建分类器,使得数据远离决策边界。找到距离分割超平面最近的点,确保他们离分割面的距离尽可能远。这些点成为支持向量。 优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 适用数据类型:数值型和标称型数据。 参考资料 阅读全文

posted @ 2020-05-16 10:46 enhaofrank 阅读(377) 评论(0) 推荐(0) 编辑

导航