代码改变世界

随笔分类 -  2.4.├─ R

编写运行R脚本

2016-08-24 11:07 by 猎手家园, 14819 阅读, 收藏, 编辑
摘要: 1、在后台运行R 1.1 创建file.R文件 1.2 在文件首行键入: 1.3 在下面的行中,键入R代码 1.4 保存(记得有png(),jpeg(),...等函数的代码最后一定要有dev.off()) 1.5 在file.R的工作目录下,在终端中输入以下命令: 1.6 file.R被运行了!!! 阅读全文

R语言归一化处理

2016-08-24 10:59 by 猎手家园, 18835 阅读, 收藏, 编辑
摘要: 归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 R语言中的归一化函数:scale 数据归一化包括数据的中心化和数据的标准化。 1. 数据的中心化所谓数据的中心化是指数据集中的各项数据减去数据集的均 阅读全文

数据分析与挖掘 - R语言:多元线性回归

2016-05-25 16:47 by 猎手家园, 879 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 线性回归主要用来做预测模型。 1、准备数据集: 2、确定线性回归函数:Y = β0 + β1X + ε 其中β0 + β1X 表示Y随X的变化而线性变化的部分;ε是随机误差,是一切不 阅读全文

大数据工具比较:R 语言和 Spark 谁更胜一筹?

2016-05-25 14:26 by 猎手家园, 1090 阅读, 收藏, 编辑
摘要: 本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库 背景介绍 由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。 你是否曾 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例三)

2016-05-25 14:04 by 猎手家园, 7705 阅读, 收藏, 编辑
摘要: 案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数。 代码如下: 预测结果为: 和原数据一样! *********************************这里是分割线************************************** 我们再拿这个方法来预测 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例二)

2016-05-25 13:43 by 猎手家园, 4206 阅读, 收藏, 编辑
摘要: 接着案例一,我们再使用另一种方法实例一个案例 直接上代码: 预测结果为: 可见该苹果的口味为:bad *********************************************这里是分割线************************************************ 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例一)

2016-05-25 13:31 by 猎手家园, 8792 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率。 后验概率:而在得到信息之后,再重新加以修正的概率叫做后验概率。贝叶斯分类是后验概率。 贝叶斯分类算法步骤: 第一步 阅读全文

数据分析与挖掘 - R语言:KNN算法

2016-05-25 11:50 by 猎手家园, 3864 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理。然后,对未知分类的数据集中的每个样本点依次执行以下操作:1、计算已知类别数据集中的点与当前点(未知分类)的距离。2 阅读全文

R语言的scale函数

2016-05-19 10:47 by 猎手家园, 22093 阅读, 收藏, 编辑
摘要: 1、数据的中心化 所谓数据的中心化是指数据集中的各项数据减去数据集的均值。 例如有数据集1, 2, 3, 6, 3,其均值为3 那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0 2、数据的标准化 所谓数据的标准化是指中心化之后的数据在除以数据集的标准差,即数 阅读全文

R安装package报ERROR: a 'NAMESPACE' file is required

2016-05-18 11:09 by 猎手家园, 1603 阅读, 收藏, 编辑
摘要: R安装package报错: 解决方案: 安装成功! 阅读全文

如何使用Hive&R从Hadoop集群中提取数据进行分析

2016-05-12 16:02 by 猎手家园, 7249 阅读, 收藏, 编辑
摘要: 一个简单的例子! 环境:CentOS6.5 Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 1、分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右;--其中有一个字段:身份证号(id_card)--身份证号前两位代表:省,例如:11北京,12天津, 阅读全文

CentOS6.5下实现R绘图

2016-05-12 13:31 by 猎手家园, 1921 阅读, 收藏, 编辑
摘要: 1、首先安装R的绘图包Cairo 下载地址:http://www.rforge.net/Cairo/files/ 2、检查 兼容性的检查Cairo支持的图形输出格式: 支持:png、jpeg、pdf、svg、ps、x11(Linux桌面)、raster 不支持:tiff、win(windows桌面) 阅读全文

CentOS6.5安装RHive

2016-05-08 15:54 by 猎手家园, 555 阅读, 收藏, 编辑
摘要: 1、安装RServe软件包(各个节点都要安装) 2、设置环境变量 3、创建Rserv.conf $R_HOME的目录下创建Rserv.conf文件,写入``remote enable''保存并退出。 4、拷贝文件 5、所有节点启动Rserve 如果没有Rserve请先建立软链: 启动: 验证: 6、 阅读全文

CentOS6.5安装RHBase

2016-05-08 15:42 by 猎手家园, 569 阅读, 收藏, 编辑
摘要: 1、安装依赖包 2、安装Thrift软件包 3、配置环境变量 在/etc/profile中设置环境变量PKG_CONFIG_PATH: 验证设置的正确性,在shell下输入pkg-config --cflags thrift如结果如下所示: -I/usr/local/include/thrift # 阅读全文

CentOS6.5安装RHadoop

2016-05-08 14:54 by 猎手家园, 644 阅读, 收藏, 编辑
摘要: 1、首先安装依赖包(各个节点都要安装) 2、下载RHadoop相关软件包 3、安装R语言(各个节点都要安装) 其中readline-devel、libXt-devel在编译R的时候需要,而--enable-R-shlib是安装R的共享库,在安装Rstudio需要。 4、确认Java环境变量 RHad 阅读全文

数据分析与挖掘 - R语言:K-means聚类算法

2016-05-02 22:07 by 猎手家园, 10186 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 1、分析题目--有一个用户点击数据样本(husercollect)--按用户访问的时间(时)统计--要求:分析时间和点击次数的聚类情况2、数据准备 3、评估K值 评估结果: 由上图可 阅读全文

R语言学习笔记:基础知识

2016-05-02 16:00 by 猎手家园, 2191 阅读, 收藏, 编辑
摘要: 1、数据分析金字塔 2、【文件】-【改变工作目录】 3、【程序包】-【设定CRAN镜像】 【程序包】-【安装程序包】 4、向量 c() 例:x=c(2,5,8,3,5,9) 例:x=c(1:100) 表示把1 - 100的所有数字都给x这个变量 5、查看x的类型:>mode(x) 6、查看x的长度: 阅读全文