Data Mining - 随笔分类 - molearner

机器学习-——损失函数

摘要：基础概念损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，换句话，可以解释为我们构建模型得到的预测值与真实值之间的差距。它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构阅读全文

posted @ 2018-10-22 21:26 molearner 阅读(10584) 评论(0) 推荐(0)

机器学习——LightGBM

摘要：基础概念 LigthGBM是boosting集合模型中的新进成员，它和xgboost一样是对GBDT的高效实现，很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。 LightGBM的优化点 1、采用直方阅读全文

posted @ 2018-07-21 16:12 molearner 阅读(10299) 评论(1) 推荐(1)

机器学习——超参数搜索

摘要：基础概念超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，在机器学习过程中需要对超参数进行优化，给学习器选择一组最优超参数，以提高学习的性能和效果。比如，树的数量或树的深度，学习率（多种模式）以及k均值聚类中的簇数等都是超参数。与超参数区别的概念是参数，它是模型训阅读全文

posted @ 2018-07-17 22:33 molearner 阅读(18882) 评论(0) 推荐(3)

机器学习——神经网络

摘要：神经网络基础概念人工神经网络又叫神经网络，是借鉴了生物神经网络的工作原理形成的一种数学模型。神经网络是机器学习诸多算法中的一种，它既可以用来做有监督的任务，如分类、视觉识别等，也可以用作无监督的任务。同时它能够处理复杂的非线性问题，它的基本结构是神经元，如下图所示：其中，x1、x2、x3代表输入阅读全文

posted @ 2018-06-25 22:46 molearner 阅读(15095) 评论(0) 推荐(0)

机器学习中特征的处理及选择

摘要：基础概念特征工程是通过对原始数据的处理和加工，将原始数据属性通过处理转换为数据特征的过程，属性是数据本身具有的维度，特征是数据中所呈现出来的某一种重要的特性，通常是通过属性的计算，组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言，好的数据以及特征往往是一个阅读全文

posted @ 2018-04-26 22:59 molearner 阅读(43107) 评论(0) 推荐(2)

机器学习中的类别不均衡问题

摘要：基础概念类别不均衡是指在分类学习算法中，不同类别样本的比例相差悬殊，它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上，有1000个样本，其中5个正样本，995个负样本，在这种情况下，算法只需将所有的样本预测为负样本，那么它的精度也可以达到99.5%，虽然结果的精度很高，但它依然没有价值阅读全文

posted @ 2018-04-19 22:06 molearner 阅读(19340) 评论(0) 推荐(1)

模型评估方法和性能指标

摘要：基础概念在建模过程中，由于偏差过大导致的模型欠拟合以及方差过大导致的过拟合的存在，为了解决这两个问题，我们需要一整套方法及评价指标。其中评估方法用于评估模型的泛化能力，而性能指标则用于评价单个模型性能的高低。泛化性能模型的泛化性能是由学习算法的能力，数据的充分性及学习任务本身的难度所决定的，良阅读全文

posted @ 2018-04-09 22:57 molearner 阅读(12195) 评论(0) 推荐(0)

机器学习——XGBoost

摘要：基础概念 XGBoost（eXtreme Gradient Boosting）是GradientBoosting算法的一个优化的版本，针对传统GBDT算法做了很多细节改进，包括损失函数、正则化、切分点查找算法优化等。 xgboost的优化点相对于传统的GBM，XGBoost增加了正则化步骤。正则化阅读全文

posted @ 2018-04-03 23:00 molearner 阅读(5266) 评论(0) 推荐(1)

机器学习——GBDT

摘要：基础概念 GBDT(Gradient Boosting Decision Tree) 全称梯度提升决策树，是一种迭代的决策树算法。GBDT是集成学习Boosting的家族成员，GBDT中的树是回归树，用于回归预测，调整后也可以用于分类。分类树与回归树的差异分类树大致的实现过程是：穷举每一个属性特阅读全文

posted @ 2018-03-20 21:35 molearner 阅读(807) 评论(0) 推荐(0)

决策树算法

摘要：决策树基础概念在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy （熵）表示的是系统的凌乱程度，它是决策树的决策依据，熵的概念来源于香侬的信息论。决策树的决策过程选择分裂特征：根据某一指标（信息增益，信息增益比或基尼系数）计算不同特征的指标值，选阅读全文

posted @ 2017-01-15 14:49 molearner 阅读(8039) 评论(0) 推荐(0)

molearner

做一个简单的求知者，做一个认真的思考者。

随笔分类 - Data Mining