随笔分类 - R
统计学编程语言和开发环境
摘要:最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为备忘。特征选取R中的FSelector包实现了一些特征选取的算法,主要分两大类:Algorith...
阅读全文
摘要:问题背景 最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户,休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。 这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。 统计结果 经过数据清理和统计,得到下面的结果 用户...
阅读全文
摘要:目前主要使用ggplot2做一些数据可视化的分析,但是ggplot2有个很大的缺陷是不支持3D作图,所以需要查找其他替代方案。下面找到的两个替代方案不错,亲测可行,记录于此。交互3Dlibrary(rgl)with(mtcars,{ plot3d(wt, disp, mpg, col="red...
阅读全文
摘要:前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点 2 遍历所有数据,...
阅读全文
摘要:前言主成份分析,简写为PCA(Principle Component Analysis)。用于提取矩阵中的最主要成分,剔除冗余数据,同时降低数据纬度。现实世界中的数据可能是多种因数叠加的结果,如果这些因数是线性叠加,PCA就可以通过线性转化,还原这种叠加,找到最原始的数据源。PCA原理P.S: 下面...
阅读全文
摘要:Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta
阅读全文
摘要:记要今天在计算分类模型自行区间时,用到了R中正太分布的qnorm函数,这里做简单记要,作为备忘。R中自带了很多概率分布的函数,如正太分布,二次分布,卡放分布,t分布等,这些分布的函数都有一个共性,每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布,有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下:d Density的缩写,表示密度函数。举个例子,标准正太分布x=0对应的值可以用dnorm(0)计算p Probability的缩写,表示概率函数。举个例子,标准正太分布从负无穷大到0的概率,可以用pnorm(0)计算q Quantile的缩写,表示分位函数。举个例子,
阅读全文