摘要: 以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). 0 初始化0.1 安装 install.packages("dplyr") 0.2 示范数据 lib 阅读全文
posted @ 2017-03-01 17:17 holy_black_cat 阅读(4319) 评论(0) 推荐(0)
摘要: 前言 本文接上一篇文章 R语言基于S3的面向对象编程,本文继续介绍R语言基于S4的面向对象编程。 S4对象系统具有明显的结构化特征,更适合面向对象的程序设计。Bioconductor社区,以S4对象系统做为基础架构,只接受符合S4定义的R包。 目录 1 S4对象介绍 S4对象系统是一种标准的R语言面 阅读全文
posted @ 2017-03-01 17:16 holy_black_cat 阅读(4062) 评论(0) 推荐(0)
摘要: 低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。让我们尝试提升往数据框中添加一个新变量过程(该过程中包含循环和判断语句)的运算效 阅读全文
posted @ 2017-03-01 17:15 holy_black_cat 阅读(349) 评论(0) 推荐(0)
摘要: spark1.4.0的sparkR的思路:用spark从大数据集中抽取小数据(sparkR的DataFrame),然后到R里分析(DataFrame)。这两个DataFrame是不同的,前者是分布式的,集群上的DF,R里的那些包都不能用;后者是单机版的DF,包里的函数都能用。sparkR的开发计划, 阅读全文
posted @ 2017-03-01 17:14 holy_black_cat 阅读(389) 评论(0) 推荐(0)
摘要: 1.table函数返回众数,再转为dataframe 2.使用which 返回数组下标 which(rs.list=="rs1008507") 3.循环数值存储 (1) M<-matrix(NA,6,6)for(i in 0:6){ if(i<=2) {for(j in (2-i):(6-i)) M 阅读全文
posted @ 2017-03-01 17:14 holy_black_cat 阅读(351) 评论(0) 推荐(0)
摘要: 频数表在统计学中是一个非常基本并且重要的概念,我们这里就来讲解它的基本用法。 首先我们需要载入数据,并查看数据的基本信息 [python] view plain copy install.packages('vcd') #安装vcd包,其中有可以利用的数据Arthritis library(vcd) 阅读全文
posted @ 2017-03-01 17:13 holy_black_cat 阅读(4245) 评论(0) 推荐(0)
摘要: 1.R数据的保存与加载 可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中。 [ruby] view plain copy > a <- 1:10 > save(a,file='d://data//dumData.Rdata') > rm(a) #将对象a从R中删除 阅读全文
posted @ 2017-03-01 17:12 holy_black_cat 阅读(27454) 评论(0) 推荐(1)
摘要: 创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内、外部的单机、分布式数据转换为DataFrame。以下Python示例代码充分体现了Spark SQL 1.3.0中DataFrame数据源的丰富多样和简单易用: 阅读全文
posted @ 2017-03-01 17:11 holy_black_cat 阅读(1936) 评论(0) 推荐(0)
摘要: 直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和爬一些R的资料,看着看着就入迷了,这就是个大宝库了,以前怎么没发现,看来还是太狭隘了。直到前几天我看到这个Awesome R文档,我就静不下来了,对比了目前自己的工作和以后的方向,非常适合我。所以毫不犹豫的 阅读全文
posted @ 2017-03-01 17:09 holy_black_cat 阅读(2252) 评论(0) 推荐(0)
摘要: 什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎 阅读全文
posted @ 2017-03-01 17:07 holy_black_cat 阅读(3528) 评论(0) 推荐(0)
摘要: Standalone模式:Standalone模式运行的Spark集群对不同的应用程序采用先进先出(FIFO)的顺序进行调度。默认情况下每个应用程序会独占所有可用节点的资源。 现在版本的SparkR只能运行在standalone模式下 问题1:安装问题 由于R涉及到Fortran语言,要下载gcc- 阅读全文
posted @ 2017-03-01 17:06 holy_black_cat 阅读(611) 评论(0) 推荐(0)
摘要: 1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中?从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于Schem 阅读全文
posted @ 2017-03-01 17:05 holy_black_cat 阅读(9945) 评论(0) 推荐(0)
摘要: 由于装的sparkr是1.4版本的,老版本的很多函数已经不再适用了。 在2台服务器的组成的集群中测试了一版数据,熟悉下这个api的基本操作。​ libpath <- .libPaths() libpath <- c(libpath, "/home/r/spark/spark-1.4.0-bin-ha 阅读全文
posted @ 2017-03-01 17:02 holy_black_cat 阅读(347) 评论(0) 推荐(0)
摘要: 引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数 阅读全文
posted @ 2017-03-01 17:00 holy_black_cat 阅读(644) 评论(0) 推荐(0)
摘要: apply函数(对一个数组按行或者按列进行计算): 使用格式为: apply(X, MARGIN, FUN, ...) 其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma <- matri 阅读全文
posted @ 2017-03-01 16:59 holy_black_cat 阅读(2295) 评论(0) 推荐(0)
摘要: 在实际应用中,经常需要实现在一个查询语句中显示多张表的数据,这就是所谓的多表数据记录连接查询,简称来年将诶查询。 在具体实现连接查询操作时,首先将两个或两个以上的表按照某个条件连接起来,然后再查询到所要求的数据记录。连接查询分为内连接查询和外连接查询。 在具体应用中,如果需要实现多表数据记录查询,一 阅读全文
posted @ 2017-03-01 16:58 holy_black_cat 阅读(661) 评论(0) 推荐(0)
摘要: 9.3. 用户变量 可以先在用户变量中保存值然后在以后引用它;这样可以将值从一个语句传递到另一个语句。用户变量与连接有关。也就是说,一个客户端定义的变量不能被其它客户端看到或使用。当客户端退出时,该客户端连接的所有变量将自动释放。 用户变量的形式为@var_name,其中变量名var_name可以由 阅读全文
posted @ 2017-03-01 16:54 holy_black_cat 阅读(22789) 评论(0) 推荐(3)
摘要: 作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El 阅读全文
posted @ 2017-03-01 16:51 holy_black_cat 阅读(327) 评论(0) 推荐(0)
摘要: 先言:R语言常用界面操作 帮助:help(nnet) = ?nnet =??nnet 清除命令框中所有显示内容:Ctrl+L 清除R空间中内存变量:rm(list=ls())、gc() 获取或者设置当前工作目录:getwd、setwd 保存指定文件或者从磁盘中读取出来:save、load 读入、读出 阅读全文
posted @ 2017-03-01 16:50 holy_black_cat 阅读(7321) 评论(0) 推荐(0)
摘要: R语言实际上是函数的集合,用户可以使用base,stats等包中的基本函数,也可以自己编写函数完成一定的功能。但是初学者往往认为编写R函数十分困难,或者难以理解。这里对如何编写R函数进行简要的介绍。 函数是对一些程序语句的封装。换句话说,编写函数,可以减少人们对重复代码书写,从而让R脚本程序更为简洁 阅读全文
posted @ 2017-03-01 16:44 holy_black_cat 阅读(665) 评论(0) 推荐(0)