摘要:用emoji表情包来可视化北京市历史天气状况! 最近有了一个突如其来的想法,主要是看到了R社区有大神做了emoji表情包,并已经打通了ggplot的链接,所以想用ggplot结合emoji表情做一期天气可视化! library(RCurl) library(XML) library(dplyr) l
阅读全文
随笔分类 - r,sas
摘要:R的优点:免费,开源,体积小。缺点:对大文本处理差,另外一个也在于开源,package如果出错,烦死你。当你跑比较大的simulation,对效率有要求的时候,有时还是不得不用C,这可能是10小时和10分钟的差别,毫不夸张。SAS流行于公司,R流行于研究机构和大学数据分析不是单纯的靠软件来做的,需要
阅读全文
摘要:R语言网络爬虫初学者指南(使用rvest包) 钱亦欣 发表于 今年 06-04 14:50 5228 阅读 R语言网络爬虫初学者指南(使用rvest包) R语言网络爬虫初学者指南(使用rvest包) 钱亦欣 发表于 今年 06-04 14:50 5228 阅读 作者 SAURAV KAUSHIK 译
阅读全文
摘要:ggplot2在一幅图上画两条曲线 print(data)后的结果是 C BROWN.P MI.P 0 0.9216 0.9282 30 0.9240 0.9282 100 0.9255 0.9282 现想要在一张图中画两条曲线。横轴为C,纵轴分别为BROWN.P和MI.P,如何做? 其实很简单 p
阅读全文
摘要:R语言中动态安装库 在一个R脚本中,我们使用了某些library,但是发现运行环境中没有这个library,如果能检测一下有没有这个包,没有就自动安装该多好。而R中非常方便地支持这些,只要联网。 代码如下: site<-"http://cran.r-project.org" if (!require
阅读全文
摘要:R语言︱机器学习模型评估方案(以随机森林算法为例) R语言︱机器学习模型评估方案(以随机森林算法为例) 笔者寄语:本文中大多内容来自《数据挖掘之道》,本文为读书笔记。在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率。需要完整的评价模型的
阅读全文
摘要:R语言︱决策树族——随机森林算法 笔者寄语:有一篇《有监督学习选择深度学习还是随机森林或支持向量机?》(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归。若效果不好,也
阅读全文
摘要:笔记︱决策树族——梯度提升树(GBDT) 笔记︱决策树族——梯度提升树(GBDT) 本笔记来源于CDA DSC,L2-R语言课程所学进行的总结。 一、介绍:梯度提升树(Gradient Boost Decision Tree) Boosting算法和树模型的结合。按次序建立多棵树,每棵树都是为了减少
阅读全文
摘要:机器学习中的过拟合问题 相关内容: 1、 R语言︱ROC曲线——分类器的性能表现评价 2、机器学习中的过拟合问题 3、R语言︱机器学习模型评估方案(以随机森林算法为例) —————————————————————————— 过拟合问题举例 右图在训练数据上拟合完美,但是预测第11个时候, 左图虽然拟
阅读全文
摘要:笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程) 一、正则化背景 监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们
阅读全文
摘要:R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读 R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读 XGBoost不仅仅可以用来做分类还可以做时间序列方面的预测,而且已经有人做的很好,可以见最
阅读全文
摘要:转载︱案例 基于贪心算法的特征选择 转载︱案例 基于贪心算法的特征选择 用GA算法设计22个地点之间最短旅程-R语言实现 ———————————————————————————————————————————————————————— greedy Algorithm Feature Selecti
阅读全文
摘要:工业级GBDT算法︱微软开源 的LightGBM(R包正在开发....) 看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性。日前看到微软已经公开了这一算法,而且已经发开Python版本,本人觉得等Hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果R包一发我一定要第一时间学
阅读全文
摘要:R︱mlr包帮你挑选最适合数据的机器学习模型(分类、回归)+机器学习python和R互查手册 一、R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法、在哪个包里面。 [html] view plain copy print? a<-
阅读全文
摘要:机器学习算法线上部署方法 机器学习算法线上部署方法 本文由携程技术中心投递,ID:ctriptech。作者:潘鹏举,携程酒店研发BI经理,负责酒店服务相关的业务建模工作,主要研究方向是用机器学习实现业务流程自动化、系统智能化、效率最优化,专注于算法实践和应用。 我们经常会碰到一个问题:用了复杂的GB
阅读全文
摘要:R语言︱常用统计方法包+机器学习包(名称、简介) R语言︱常用统计方法包+机器学习包(名称、简介) 一、一些函数包大汇总 转载于:http://www.dataguru.cn/thread-116761-1-1.html 时间上有点过期,下面的资料供大家参考基本的R包已经实现了传统多元统计的很多功能
阅读全文
摘要:R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错 笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集、测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证。 模型预测效果评价,通常用相对绝对误差
阅读全文
摘要:R语言︱H2o深度学习的一些R语言实践——H2o包 R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件。笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来。 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程
阅读全文
摘要:笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting 本杂记摘录自文章《开发 | 为什么说集成学习模型是金融风控新的杀手锏?》 基本内容与分类见上述思维导图。 . . 一、机器学习元算法 随机森林:决策树+bagging=随机森林 梯度提升树:决策树Boos
阅读全文
摘要:笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包) 笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包) 本内容来源于CDA-DSC课程内容,原内容为《第16讲 汽车金融信用违约预测模型案例》。 建立违约预测模型的过程中,变量的筛选尤为重要。需要经历多次的筛选,
阅读全文
浙公网安备 33010602011771号