随笔列表第2页 - bourneli

2014年9月1日

摘要：问题背景最近某个游戏内测，给到一批内测用户，并且将每位用户标记为RPG游戏用户，休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率，并观察是否有明显的区别，用于指导后续开展游戏运营活动。这里记录使用卡方检验技术验证用户种类与次日行为的独立性，作为备忘。统计结果经过数据清理和统计，得到下面的结果用户... 阅读全文

posted @ 2014-09-01 16:26 bourneli 阅读(1867) 评论(0) 推荐(0)

2014年8月17日

R绘制3D散点图

摘要：目前主要使用ggplot2做一些数据可视化的分析，但是ggplot2有个很大的缺陷是不支持3D作图，所以需要查找其他替代方案。下面找到的两个替代方案不错，亲测可行，记录于此。交互3Dlibrary(rgl)with(mtcars,{ plot3d(wt, disp, mpg, col="red... 阅读全文

posted @ 2014-08-17 15:59 bourneli 阅读(7406) 评论(0) 推荐(0)

2014年4月4日

kmeans聚类理论篇

摘要：前言 kmeans是最简单的聚类算法之一，但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。本文记录学习kmeans算法相关的内容，包括算法原理，收敛性，效果评估聚，最后带上R语言的例子，作为备忘。算法原理 kmeans的计算方法如下： 1 随机选取k个中心点 2 遍历所有数据，... 阅读全文

posted @ 2014-04-04 13:59 bourneli 阅读(162755) 评论(7) 推荐(6)

2014年3月25日

PCA主成份分析学习记要

摘要：前言主成份分析，简写为PCA（Principle Component Analysis）。用于提取矩阵中的最主要成分，剔除冗余数据，同时降低数据纬度。现实世界中的数据可能是多种因数叠加的结果，如果这些因数是线性叠加，PCA就可以通过线性转化，还原这种叠加，找到最原始的数据源。PCA原理P.S: 下面... 阅读全文

posted @ 2014-03-25 20:32 bourneli 阅读(14903) 评论(0) 推荐(0)

2013年10月14日

【经验分享】我经历的几门MOOC

摘要：这半年来，从1月初到6月底，在coursera上注册了4们有关数据分析/挖掘的课程。这些课程都是利用业余时间学习，每周基本上花5个小时左右。其中通过了3门，注销了一门。感觉还是学到了一些东西。第一门课程 Computing for Data Science，2013年1月2日开课，为期4周。本课程主要是学习编程语言R---一种数据分析语言和环境，学完后可以用R完成基本分析任务，但一些高级的数据可视化掌握得不熟练，需要后面巩固。第二门课程 Data Analysis，2013年1月22日开课，为期8周。这门课程与上门课程配套的，主要用R进行一些数据分析。主要的理论是统计学，什么概率，抽... 阅读全文

posted @ 2013-10-14 12:52 bourneli 阅读(1307) 评论(0) 推荐(0)

2013年9月4日

Linux安装R记要

摘要： R在Linux上的安装有一些坑（Windows上安装会方便许多），在这里记录，希望可以减少读者不必要的麻烦。我的服务器是SUSE Linux 64位，无法接入互联网（安全原因，你懂的）。到R官网http://www.r-project.org/下载源代码。下载完后上传到服务器上并解压。首先配置，cd... 阅读全文

posted @ 2013-09-04 14:05 bourneli 阅读(25113) 评论(0) 推荐(0)

2013年8月9日

MySQL累积求和

摘要：有如下表 id money 1 10 2 20 ... 阅读全文

posted @ 2013-08-09 18:51 bourneli 阅读(19390) 评论(0) 推荐(1)

2013年8月6日

【读书笔记】Data_Mining_with_R---Chapter_2_Predicting Algae Blooms

摘要：本书概要《Data Mining with R》这本书通过实例，并结合R讲解数据挖掘技术。本书的核心理念就是“Learning it by doing”。本书分5章，第一章介绍R和MySql的基本知识，后面4章分别结合4个案例进行讲解。最精刚刚看完第二章，觉得还是学习了一些新的东西，在这里记录一下，作为备忘。本章背景藻类的过渡繁殖会破坏河流生态。希望找到一种办法对河流内的藻类生长情... 阅读全文

posted @ 2013-08-06 20:23 bourneli 阅读(5512) 评论(2) 推荐(1)

2013年8月2日

【转】决策树之三国争霸

摘要：原文出处：http://xccds1977.blogspot.com/2012/11/blog-post_28.html决策树是一种简洁实用的数据挖掘方法。在R中通常可以用rpart包和party包来实现两种算法的决策树。最近著名的C4.5决策树算法的升级版本C5.0已经可以在官网下载到。对于这三种决策树算法，本文来做一个预测效果的简单对比。对比用的数据集是C50包中自带的churn数据，它是用来预测顾客流失的数据集，其中样本量为3333个，变量数为20个。为不平衡数据，没有缺失值存在。对比基本步骤是用10重交叉检验，将数据随机分为10份，用9份训练决策树，用1份来检验结果。循环后求出10个预阅读全文

posted @ 2013-08-02 20:22 bourneli 阅读(570) 评论(0) 推荐(1)

How can R and Hadoop be used together?

摘要： Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta 阅读全文

posted @ 2013-08-02 19:34 bourneli 阅读(428) 评论(0) 推荐(0)

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

公告