yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2017年2月19日 #

摘要: R语言︱机器学习模型评估方案(以随机森林算法为例) R语言︱机器学习模型评估方案(以随机森林算法为例) 笔者寄语:本文中大多内容来自《数据挖掘之道》,本文为读书笔记。在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率。需要完整的评价模型的 阅读全文
posted @ 2017-02-19 16:50 xxxxxxxx1x2xxxxxxx 阅读(2697) 评论(0) 推荐(0)

摘要: R语言︱决策树族——随机森林算法 笔者寄语:有一篇《有监督学习选择深度学习还是随机森林或支持向量机?》(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归。若效果不好,也 阅读全文
posted @ 2017-02-19 16:49 xxxxxxxx1x2xxxxxxx 阅读(2397) 评论(0) 推荐(0)

摘要: 笔记︱决策树族——梯度提升树(GBDT) 笔记︱决策树族——梯度提升树(GBDT) 本笔记来源于CDA DSC,L2-R语言课程所学进行的总结。 一、介绍:梯度提升树(Gradient Boost Decision Tree) Boosting算法和树模型的结合。按次序建立多棵树,每棵树都是为了减少 阅读全文
posted @ 2017-02-19 16:48 xxxxxxxx1x2xxxxxxx 阅读(669) 评论(0) 推荐(0)

摘要: 机器学习中的过拟合问题 相关内容: 1、 R语言︱ROC曲线——分类器的性能表现评价 2、机器学习中的过拟合问题 3、R语言︱机器学习模型评估方案(以随机森林算法为例) —————————————————————————— 过拟合问题举例 右图在训练数据上拟合完美,但是预测第11个时候, 左图虽然拟 阅读全文
posted @ 2017-02-19 16:47 xxxxxxxx1x2xxxxxxx 阅读(265) 评论(0) 推荐(0)

摘要: 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程) 一、正则化背景 监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们 阅读全文
posted @ 2017-02-19 16:46 xxxxxxxx1x2xxxxxxx 阅读(942) 评论(0) 推荐(0)

摘要: R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读 R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读 XGBoost不仅仅可以用来做分类还可以做时间序列方面的预测,而且已经有人做的很好,可以见最 阅读全文
posted @ 2017-02-19 16:45 xxxxxxxx1x2xxxxxxx 阅读(5338) 评论(0) 推荐(0)

摘要: 转载︱案例 基于贪心算法的特征选择 转载︱案例 基于贪心算法的特征选择 用GA算法设计22个地点之间最短旅程-R语言实现 ———————————————————————————————————————————————————————— greedy Algorithm Feature Selecti 阅读全文
posted @ 2017-02-19 16:44 xxxxxxxx1x2xxxxxxx 阅读(303) 评论(0) 推荐(0)

摘要: 工业级GBDT算法︱微软开源 的LightGBM(R包正在开发....) 看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性。日前看到微软已经公开了这一算法,而且已经发开Python版本,本人觉得等Hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果R包一发我一定要第一时间学 阅读全文
posted @ 2017-02-19 16:43 xxxxxxxx1x2xxxxxxx 阅读(496) 评论(0) 推荐(0)

摘要: R︱mlr包帮你挑选最适合数据的机器学习模型(分类、回归)+机器学习python和R互查手册 一、R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法、在哪个包里面。 [html] view plain copy print? a<- 阅读全文
posted @ 2017-02-19 16:43 xxxxxxxx1x2xxxxxxx 阅读(1236) 评论(0) 推荐(0)

摘要: 机器学习算法线上部署方法 机器学习算法线上部署方法 本文由携程技术中心投递,ID:ctriptech。作者:潘鹏举,携程酒店研发BI经理,负责酒店服务相关的业务建模工作,主要研究方向是用机器学习实现业务流程自动化、系统智能化、效率最优化,专注于算法实践和应用。 我们经常会碰到一个问题:用了复杂的GB 阅读全文
posted @ 2017-02-19 16:41 xxxxxxxx1x2xxxxxxx 阅读(729) 评论(0) 推荐(0)

摘要: R语言︱常用统计方法包+机器学习包(名称、简介) R语言︱常用统计方法包+机器学习包(名称、简介) 一、一些函数包大汇总 转载于:http://www.dataguru.cn/thread-116761-1-1.html 时间上有点过期,下面的资料供大家参考基本的R包已经实现了传统多元统计的很多功能 阅读全文
posted @ 2017-02-19 16:39 xxxxxxxx1x2xxxxxxx 阅读(3405) 评论(0) 推荐(0)

摘要: R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错 笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集、测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证。 模型预测效果评价,通常用相对绝对误差 阅读全文
posted @ 2017-02-19 16:37 xxxxxxxx1x2xxxxxxx 阅读(818) 评论(0) 推荐(0)

摘要: R语言︱H2o深度学习的一些R语言实践——H2o包 R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件。笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来。 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程 阅读全文
posted @ 2017-02-19 16:36 xxxxxxxx1x2xxxxxxx 阅读(1388) 评论(0) 推荐(0)

摘要: 笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting 本杂记摘录自文章《开发 | 为什么说集成学习模型是金融风控新的杀手锏?》 基本内容与分类见上述思维导图。 . . 一、机器学习元算法 随机森林:决策树+bagging=随机森林 梯度提升树:决策树Boos 阅读全文
posted @ 2017-02-19 16:17 xxxxxxxx1x2xxxxxxx 阅读(512) 评论(0) 推荐(0)

摘要: 笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包) 笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包) 本内容来源于CDA-DSC课程内容,原内容为《第16讲 汽车金融信用违约预测模型案例》。 建立违约预测模型的过程中,变量的筛选尤为重要。需要经历多次的筛选, 阅读全文
posted @ 2017-02-19 16:16 xxxxxxxx1x2xxxxxxx 阅读(793) 评论(0) 推荐(0)

摘要: 笔记︱支持向量机SVM在金融风险欺诈中应用简述 笔记︱支持向量机SVM在金融风险欺诈中应用简述 欺诈一般不用什么深入的模型进行拟合,比较看重分析员对业务的了解,从异常值就可以观测出欺诈行为轨迹。同时欺诈较多看重分类模型的召回与准确率两个指标。较多使用SVM来进行建模。 召回率,准确率,排序很准的模型 阅读全文
posted @ 2017-02-19 16:15 xxxxxxxx1x2xxxxxxx 阅读(422) 评论(0) 推荐(0)

摘要: 笔记+R︱信用风险建模中神经网络激活函数与感知器简述 一、信用风险建模中神经网络的应用 申请评分可以将神经网络+逻辑回归联合使用。 《公平信用报告法》制约,强调评分卡的可解释性。所以初始评分(申请评分)一般用回归,回归是解释力度最大的。 神经网络可用于银行行为评级以及不受该法制约监管的业务(P2P) 阅读全文
posted @ 2017-02-19 16:14 xxxxxxxx1x2xxxxxxx 阅读(369) 评论(0) 推荐(0)

摘要: 一、logit值的来源 逻辑回归一般将因变量二分类变量的0-1转变为频率[0,1],变成odds(优势比,[0,+∞]),然后log一下成为Logit值([-∞,+∞]) 优势比就是:odds=P(y=1)/P(y=0) logit值:logit=log(odds) 什么是sigmoid函数? 先定 阅读全文
posted @ 2017-02-19 16:13 xxxxxxxx1x2xxxxxxx 阅读(2188) 评论(0) 推荐(0)

摘要: 本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营 —————————————————————————————————————————— 一、欺诈、损失定义与分类 1、欺诈分类 欺诈与客户虚假信息识别的案例较少,因为这些案 阅读全文
posted @ 2017-02-19 16:12 xxxxxxxx1x2xxxxxxx 阅读(598) 评论(0) 推荐(0)

摘要: 笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift) 笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift) 本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据 阅读全文
posted @ 2017-02-19 16:11 xxxxxxxx1x2xxxxxxx 阅读(2441) 评论(0) 推荐(0)