随笔分类 -  R

R语言学习分享
摘要:The glmnetUtils package provides a collection of tools to streamline the process of fitting elastic net models with glmnet. I wrote the package after 阅读全文
posted @ 2016-11-03 13:33 payton数据之旅 阅读(434) 评论(0) 推荐(0)
摘要:If the media coverage is anything to go by, people are desperate to know who will win the US election on November 8. Polls give us some indication of 阅读全文
posted @ 2016-11-03 13:31 payton数据之旅 阅读(235) 评论(0) 推荐(0)
摘要:If your regression model contains a categorical predictor variable, you commonly test the significance of its categories against a preselected referen 阅读全文
posted @ 2016-11-01 10:12 payton数据之旅 阅读(361) 评论(0) 推荐(0)
摘要:原文在此:8 Trips to Combat Imbalanced Classes in You Machine Learning Dataset by Jason Brownlee 当你遇到非均衡数据集的时候,即便是你得到准确率为90%的分类模型,只要你仔细研读你会发现,分类中基本都是某一类。 C 阅读全文
posted @ 2016-10-28 16:02 payton数据之旅 阅读(1355) 评论(0) 推荐(0)
摘要:In the first installment of this series, we scraped reviews from Goodreads. In thesecond one, we performed exploratory data analysis and created new v 阅读全文
posted @ 2016-10-03 14:25 payton数据之旅 阅读(338) 评论(0) 推荐(0)
摘要:TensorFlow™ is an open source software library for numerical computation using data flow graphs. Nodes in the graph represent mathematical operations, 阅读全文
posted @ 2016-10-02 19:34 payton数据之旅 阅读(1144) 评论(0) 推荐(0)
摘要:利用聚类分析,我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量,这些文字并没有过多地介绍如何处理混合型数据(如同时包含连续型变量、名义型变量和顺序型变量的数据)。本文将利用 Gower 距离、PAM(partitioning around medoid 阅读全文
posted @ 2016-09-09 12:05 payton数据之旅 阅读(4047) 评论(1) 推荐(0)
摘要:文章摘要 本文首先介绍了并行计算的基本概念,然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式,并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法,而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样, 阅读全文
posted @ 2016-09-09 09:33 payton数据之旅 阅读(2366) 评论(0) 推荐(0)
摘要:最近在调用SparkR的时候,当用copy_to函数将R中的数据框导入到Spark时,会在默认的tempdir()目录下(这里默认目录即为/tmp)产生巨大的临时文件, 严重影响R脚本的运行,最终一番折腾,查找资料,终于搞定。解决办法如下: 验证下: ok,搞定! 阅读全文
posted @ 2016-09-09 00:10 payton数据之旅 阅读(6623) 评论(0) 推荐(0)
摘要:注:之前本人写了一篇SparkR的安装部署文章:SparkR安装部署及数据分析实例,当时SparkR项目还没正式入主Spark,需要自己下载SparkR安装包,但现在spark已经支持R接口,so更新了这篇文章。 1、Hadoop安装 参考: http://www.linuxidc.com/Linu 阅读全文
posted @ 2016-09-05 18:45 payton数据之旅 阅读(3345) 评论(0) 推荐(0)
摘要:Machine and statistical learning wizards are becoming more eager to perform analysis with Spark MLlibrary if this is only possible. It’s trendy, posh, 阅读全文
posted @ 2016-08-26 11:43 payton数据之旅 阅读(694) 评论(0) 推荐(0)
摘要:As we demonstrated in “A gentle introduction to parallel computing in R” one of the great things about R is how easy it is to take advantage of parall 阅读全文
posted @ 2016-08-17 13:15 payton数据之旅 阅读(297) 评论(0) 推荐(0)
摘要:深度学习在过去几年,由于卷积神经网络的特征提取能力让这个算法又火了一下,其实在很多年以前早就有所出现,但是由于深度学习的计算复杂度问题,一直没有被广泛应用。 一般的,卷积层的计算形式为: 其中、x分别表示当前卷积层中第j个特征、前一层的第i个特征;k表示当前层的第j个特征与前一层的第i个特征之间的卷 阅读全文
posted @ 2016-08-06 00:15 payton数据之旅 阅读(3940) 评论(0) 推荐(0)
摘要:日前,Rstudio公司发布了sparklyr包。该包具有以下几个功能: 实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端 筛选并聚合Spark数据集,接着在R中实现分析与可视化 利用Spark的MLlib机器学习库在R中实现分布式机器学习算法 可以创建一个扩展,用于调用S 阅读全文
posted @ 2016-06-30 16:38 payton数据之旅 阅读(5948) 评论(0) 推荐(0)
摘要:Feature selection is a process of extracting valuable features that have significant influence ondependent variable. This is still an active field of 阅读全文
posted @ 2016-06-21 16:32 payton数据之旅 阅读(556) 评论(0) 推荐(0)
摘要:@theboysmithy did a great piece on coming up with an alternate view for a timeline for an FT piece. Here’s an excerpt (read the whole piece, though, i 阅读全文
posted @ 2016-06-17 11:17 payton数据之旅 阅读(318) 评论(0) 推荐(0)
摘要:A couple of weeks or so ago, I picked up an inlink from an OCLC blog post about Visualizing Network Flows: Library Inter-lending. The post made use of 阅读全文
posted @ 2016-06-08 11:06 payton数据之旅 阅读(743) 评论(0) 推荐(0)
摘要:上周在中国R语言大会北京会场上,给大家分享了如何利用R语言交互数据可视化。现场同学对这块内容颇有兴趣,故今天把一些常用的交互可视化的R包搬出来与大家分享。 rCharts包 说起R语言的交互包,第一个想到的应该就是rCharts包。该包直接在R中生成基于D3的Web界面。 rCharts包的安装 r 阅读全文
posted @ 2016-06-07 17:46 payton数据之旅 阅读(8809) 评论(2) 推荐(0)
摘要:Open-source software is awesome. If I found that a piece of closed-source software was missing a feature that I wanted, well, bad luck. I probably cou 阅读全文
posted @ 2016-06-03 11:37 payton数据之旅 阅读(280) 评论(0) 推荐(0)
摘要:In my last article, I stated that for practitioners (as opposed to theorists), the real prerequisite for machine learning is data analysis, not math. 阅读全文
posted @ 2016-06-01 10:39 payton数据之旅 阅读(320) 评论(0) 推荐(0)