最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoophivestorm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。

  我们对大数据以及大数据分析完全没有头绪,我们甚至对大数据技术产生了迷茫,产生了退缩。

  当我们拿到数据应该怎么做呢,如果不知道怎么做,那就先进行探索性分析吧。

  分析数据可以分为探索和验证两个阶段。探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。

  探索性分析一般表现为直方图和茎叶图。探索性数据分析的基本工具是图、制表和汇总统计量。一般来说,探索性数据分析是一种系统性分析数据的方法,它展示了所有变量的分布情况、时间序列数据和变换变量,利用散列矩阵图展示了变量两两之间的关系,并且得到了所有的汇总统计量。换句话说,就是要计算均值、最大值、最小值、上下四分位数和确定异常值。

  说了那么多,那就来个例子吧。并给出R语言和spss实现。

     附件的数据共有5列,分别为:年龄、性别、广告次数、点击次数和是否登录。

R语言的实现:

 1 root="F:/dds_datasets/dds_ch2_nyt/"
 2 setwd(root)
 3 file<-paste(root,"nyt1.csv",sep="")
 4 nytdata<-read.csv(file)
 5 head(nytdata)
 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf))
 7 summary(nytdata)
 8 
 9 install.packages("doBy")
10 library("doBy")
11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}
12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)
13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)
14 ##先画出直方图图
15 
16 install.packages("ggplot2")
17 library("ggplot2")
18 
19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()
20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()
View Code

 分析结果如下:

spss实现比较简单,通过向导导入数据,选择 分析-数据描述-探索就行了。

我也是码农中的一员,大数据对我来讲我也是初学者,前段时间开始学习R语言,感兴趣的同仁可以进来互相交流。

 不知道在哪可以传附件,晕了。。。。。。。有需要数据的请联系我。

posted on 2015-12-30 02:31  成都笨笨  阅读(8593)  评论(0编辑  收藏  举报