随笔分类 -  Data Mining

摘要:基础概念 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,换句话,可以解释为我们构建模型得到的预测值与真实值之间的差距。它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构 阅读全文
posted @ 2018-10-22 21:26 molearner 阅读(10549) 评论(0) 推荐(0)
摘要:基础概念 LigthGBM是boosting集合模型中的新进成员,它和xgboost一样是对GBDT的高效实现,很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。 LightGBM的优化点 1、采用直方 阅读全文
posted @ 2018-07-21 16:12 molearner 阅读(10264) 评论(1) 推荐(1)
摘要:基础概念 超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,在机器学习过程中需要对超参数进行优化,给学习器选择一组最优超参数,以提高学习的性能和效果。比如,树的数量或树的深度,学习率(多种模式)以及k均值聚类中的簇数等都是超参数。 与超参数区别的概念是参数,它是模型训 阅读全文
posted @ 2018-07-17 22:33 molearner 阅读(18867) 评论(0) 推荐(3)
摘要:神经网络基础概念 人工神经网络又叫神经网络,是借鉴了生物神经网络的工作原理形成的一种数学模型。神经网络是机器学习诸多算法中的一种,它既可以用来做有监督的任务,如分类、视觉识别等,也可以用作无监督的任务。同时它能够处理复杂的非线性问题,它的基本结构是神经元,如下图所示: 其中,x1、x2、x3代表输入 阅读全文
posted @ 2018-06-25 22:46 molearner 阅读(15077) 评论(0) 推荐(0)
摘要:基础概念 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个 阅读全文
posted @ 2018-04-26 22:59 molearner 阅读(43088) 评论(0) 推荐(2)
摘要:基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值 阅读全文
posted @ 2018-04-19 22:06 molearner 阅读(19319) 评论(0) 推荐(1)
摘要:基础概念 在建模过程中,由于偏差过大导致的模型欠拟合以及方差过大导致的过拟合的存在,为了解决这两个问题,我们需要一整套方法及评价指标。其中评估方法用于评估模型的泛化能力,而性能指标则用于评价单个模型性能的高低。 泛化性能 模型的泛化性能是由学习算法的能力,数据的充分性及学习任务本身的难度所决定的,良 阅读全文
posted @ 2018-04-09 22:57 molearner 阅读(12174) 评论(0) 推荐(0)
摘要:基础概念 XGBoost(eXtreme Gradient Boosting)是GradientBoosting算法的一个优化的版本,针对传统GBDT算法做了很多细节改进,包括损失函数、正则化、切分点查找算法优化等。 xgboost的优化点 相对于传统的GBM,XGBoost增加了正则化步骤。正则化 阅读全文
posted @ 2018-04-03 23:00 molearner 阅读(5259) 评论(0) 推荐(1)
摘要:基础概念 GBDT(Gradient Boosting Decision Tree) 全称梯度提升决策树,是一种迭代的决策树算法。GBDT是集成学习Boosting的家族成员,GBDT中的树是回归树,用于回归预测,调整后也可以用于分类。 分类树与回归树的差异 分类树大致的实现过程是:穷举每一个属性特 阅读全文
posted @ 2018-03-20 21:35 molearner 阅读(798) 评论(0) 推荐(0)
摘要:决策树基础概念 在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy (熵) 表示的是系统的凌乱程度,它是决策树的决策依据,熵的概念来源于香侬的信息论。 决策树的决策过程 选择分裂特征:根据某一指标(信息增益,信息增益比或基尼系数)计算不同特征的指标值,选 阅读全文
posted @ 2017-01-15 14:49 molearner 阅读(8027) 评论(0) 推荐(0)