10 2016 档案
摘要:R语言学习笔记——数据结构 & 数据框基本操作 参考书籍:R语言实战 数据结构: 1. 向量 : 用于存储数值型、字符型或逻辑型数据的一维数组 1.1 创建 : a <- c(1, 2, 3, 4) 1.2 访问 : a[1] : 1 a[c(2, 4)] : 2 4 (向量a中的第二个和第四个元素
阅读全文
摘要:导入CSV、TXT文件 read.table函数:read.table函数以数据框的格式读入数据,所以适合读取混合模式的数据,但是要求每列的数据数据类型相同。 read.table读取数据非常方便,通常只需要文件路径、URL或连接对象就可以了,也接受非常丰富的参数设置: file参数:这是必须的,可
阅读全文
摘要:GA算法-R语言实现 旅行商问题 班共有30位同学,来自22个地区,我们希望在假期来一次说走就走的旅行,将所有同学的家乡走一遍。算起来,路费是一笔很大的花销,所以希望设计一个旅行方案,确保这一趟走下来的总路程最短。 旅行商问题是一个经典的NP问题 NP就是Non-deterministic Poly
阅读全文
摘要:关联规则 shangfr 2015年10月29日 本文旨在演示r语言arules包的关联规则用法,以及利用arulesViz对结果进行可视化 关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent
阅读全文
摘要:前提假设 妹子们一生中可以遇到100个追求者,追求者的优秀程度符合正态分布; 每个妹子都具备判断并比较追求者优秀程度的能力; 接受或拒绝一个追求者后永远无法后悔。 那么,问题来了 当遇到追求者时,如何选择才能获得最优结果? 如果人的优秀程度符合均值为80,方差20的正态分布,随机产生100个追求者,
阅读全文
摘要:d3network包 http://www.cnblogs.com/shangfr/p/5417054.html ShangFR 2016年5月6日 d3network包 http://www.cnblogs.com/shangfr/p/5417054.html ShangFR 2016年5月6日
阅读全文
摘要:问题到数据 理解问题 理解客户的问题:谁是客户(某航空公司)?交流,交流,交流! 问题要具体 某航空公司: 乘客体验如何?哪方面需要提高? 类别:比较、描述、聚类,判别还是回归 需要什么样的数据:现有数据,数据质量,需要收集的数据,自变量,因变量 哪些方面的满意度?哪些主要竞争对手? 内部数据?外部
阅读全文
摘要:数据解析 XML是一种可扩展标记语言,它被设计用来传输和存储数据。XML是各种应用程序之间进行数据传输的最常用的工具。它与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等,它仅仅是存储数据。事实上它与其他
阅读全文
摘要:#爬取电影票房信息 library(stringr) library(XML) library(maps) #htmlParse()用来interpreting HTML #创建一个object movie_parsed<-htmlParse("http://58921.com/boxoffice/
阅读全文
摘要:在文章(http://www.cnblogs.com/homewch/p/5749850.html)中有提到R可以自定义启动环境,需要修改R安装文件中的ect文件夹下的配置文件Rprofile.site即可: Rprofile.site文件里,设置的内容包括默认编辑器,CRAN镜像选取,自动加载包等
阅读全文
摘要:ASA的美国总统竞选 在这个大选之年,美国统计协会(ASA)将学生竞赛和总统选举放在一起,将学生预测谁是2016年总统大选的赢家准确的百分比作为比赛点。详情见: http://thisisstatistics.org/electionprediction2016/ 获取数据 互联网上有很多公开的民调
阅读全文
摘要:RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。下载网址为
阅读全文
摘要:介绍:1. 文本文件的读写 2. 字符统计和字符翻译3. 字符串连接4. 字符串拆分5. 字符串查询6. 字符串替换7. 字符串提取 说明: 普通文本文件不同于我们平时接触到的表格式文本文件,这里的文本文件是纯文本文件,里面包含的大部分都是字符串;而表格式文本文件大多是行列比较整齐的数据文件,读取这
阅读全文
摘要:在我的实际工作中,数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置,参见资料(https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).asp
阅读全文
摘要:分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuandn.com/booktxt/59797/#do
阅读全文
摘要:在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable,其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生,
阅读全文
摘要:包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获取,由于向 CRAN 提交包审核非常严格,有些开发者并没有将自己开发的R包提至CRAN的意向,通过
阅读全文
摘要:R 是一门拥有统计分析及作图功能的免费软件,主要用于数学建模、统计计算、数据处理、可视化等方向。据 IEEE Spectrum发布的2016年编程语言前10位排名来看,R语言由2015年排名第6位上升级2016年的第5位。目前在CRAN 上发布的算法包已经超过8000+多个。R体系涉及到高等数据、概
阅读全文

浙公网安备 33010602011771号