上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: 问题背景 最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户,休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。 这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。 统计结果 经过数据清理和统计,得到下面的结果 用户... 阅读全文
posted @ 2014-09-01 16:26 bourneli 阅读(1776) 评论(0) 推荐(0) 编辑
摘要: 目前主要使用ggplot2做一些数据可视化的分析,但是ggplot2有个很大的缺陷是不支持3D作图,所以需要查找其他替代方案。下面找到的两个替代方案不错,亲测可行,记录于此。交互3Dlibrary(rgl)with(mtcars,{ plot3d(wt, disp, mpg, col="red... 阅读全文
posted @ 2014-08-17 15:59 bourneli 阅读(7328) 评论(0) 推荐(0) 编辑
摘要: 前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点 2 遍历所有数据,... 阅读全文
posted @ 2014-04-04 13:59 bourneli 阅读(161801) 评论(7) 推荐(6) 编辑
摘要: 前言主成份分析,简写为PCA(Principle Component Analysis)。用于提取矩阵中的最主要成分,剔除冗余数据,同时降低数据纬度。现实世界中的数据可能是多种因数叠加的结果,如果这些因数是线性叠加,PCA就可以通过线性转化,还原这种叠加,找到最原始的数据源。PCA原理P.S: 下面... 阅读全文
posted @ 2014-03-25 20:32 bourneli 阅读(14739) 评论(0) 推荐(0) 编辑
摘要: 这半年来,从1月初到6月底,在coursera上注册了4们有关数据分析/挖掘的课程。这些课程都是利用业余时间学习,每周基本上花5个小时左右。其中通过了3门,注销了一门。感觉还是学到了一些东西。 第一门课程 Computing for Data Science,2013年1月2日开课,为期4周。本课程主要是学习编程语言R---一种数据分析语言和环境,学完后可以用R完成基本分析任务,但一些高级的数据可视化掌握得不熟练,需要后面巩固。 第二门课程 Data Analysis,2013年1月22日开课,为期8周。这门课程与上门课程配套的,主要用R进行一些数据分析。主要的理论是统计学,什么概率,抽... 阅读全文
posted @ 2013-10-14 12:52 bourneli 阅读(1277) 评论(0) 推荐(0) 编辑
摘要: R在Linux上的安装有一些坑(Windows上安装会方便许多),在这里记录,希望可以减少读者不必要的麻烦。我的服务器是SUSE Linux 64位,无法接入互联网(安全原因,你懂的)。到R官网http://www.r-project.org/下载源代码。下载完后上传到服务器上并解压。首先配置,cd... 阅读全文
posted @ 2013-09-04 14:05 bourneli 阅读(24989) 评论(0) 推荐(0) 编辑
摘要: 有如下表 id money 1 10 2 20 ... 阅读全文
posted @ 2013-08-09 18:51 bourneli 阅读(19326) 评论(0) 推荐(1) 编辑
摘要: 本书概要 《Data Mining with R》这本书通过实例,并结合R讲解数据挖掘技术。本书的核心理念就是“Learning it by doing”。本书分5章,第一章介绍R和MySql的基本知识,后面4章分别结合4个案例进行讲解。最精刚刚看完第二章,觉得还是学习了一些新的东西,在这里记录一下,作为备忘。 本章背景 藻类的过渡繁殖会破坏河流生态。希望找到一种办法对河流内的藻类生长情... 阅读全文
posted @ 2013-08-06 20:23 bourneli 阅读(5468) 评论(2) 推荐(1) 编辑
摘要: 原文出处:http://xccds1977.blogspot.com/2012/11/blog-post_28.html决策树是一种简洁实用的数据挖掘方法。在R中通常可以用rpart包和party包来实现两种算法的决策树。最近著名的C4.5决策树算法的升级版本C5.0已经可以在官网下载到。对于这三种决策树算法,本文来做一个预测效果的简单对比。对比用的数据集是C50包中自带的churn数据,它是用来预测顾客流失的数据集,其中样本量为3333个,变量数为20个。为不平衡数据,没有缺失值存在。对比基本步骤是用10重交叉检验,将数据随机分为10份,用9份训练决策树,用1份来检验结果。循环后求出10个预 阅读全文
posted @ 2013-08-02 20:22 bourneli 阅读(556) 评论(0) 推荐(1) 编辑
摘要: Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta 阅读全文
posted @ 2013-08-02 19:34 bourneli 阅读(419) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 14 下一页