12 2016 档案

摘要:计算各种描述性统计量函数脚本(myDescriptStat.R)如下: 示例结果如下: > setwd("./&R笔记/整理")> source("myDescriptStat.R")> w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,5 阅读全文
posted @ 2016-12-23 15:22 Little_Rookie 阅读(1539) 评论(0) 推荐(0)
摘要:最近遇到一个很头疼的事,就是 R语言读写中文编码方式。在网上找到了一篇博文,谢谢博主的精彩分享,让我很快解决了问题,在此也分享一下 R语言读写数据的方法很多,这里主要是我在使用read.csv/read.table和write.csv/write.table时遇到的一些中文格式编码的问题。常见的中文 阅读全文
posted @ 2016-12-22 16:35 Little_Rookie 阅读(30049) 评论(0) 推荐(0)
摘要:在某些时候,需要在R画图中添加中文,但是默认情况下,R对中文的支持不好。 当用R画PDF图,并且图中有中文的时候,安装并加载如下包library(showtext)然后:showtext.auto(enable = TRUE)这句命令表示之后用上同样的字体。如果要添加字体:font.add('Sim 阅读全文
posted @ 2016-12-22 15:12 Little_Rookie 阅读(8795) 评论(0) 推荐(0)
摘要:如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 安装;同理,为了方便索引,R中也以::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用 安装。 连接器与io 数据 阅读全文
posted @ 2016-12-21 18:09 Little_Rookie 阅读(5657) 评论(0) 推荐(0)
摘要:1.利用R内置数据集iris; 2.通过Rserve 包连接tableau,服务器:localhost,默认端口6311; 3.加载数据集iris; 4.编辑字段:Cluster 5.该代码在R中的效果; 6.字段:Cluster_Result 7.最终效果图 转载:http://www.voidc 阅读全文
posted @ 2016-12-21 00:44 Little_Rookie 阅读(1816) 评论(0) 推荐(0)
摘要:如何开始使用 Tableau 与 R? 对于已经熟悉 R 及其功能的用户而言,在 R 与 Tableau 之间建立连接非常简单。以 下说明适用于基于开源版 R 的新安装。其他一些方案也可能使用其他程序包,例如来自 Revolution Analytics 的程序包。 下载并安装 R。单击此处查找有关 阅读全文
posted @ 2016-12-21 00:43 Little_Rookie 阅读(4071) 评论(0) 推荐(0)
摘要:关于 Tableau Tableau 帮助人们将数据转化为可以付诸行动的见解。探索无所不能的可视化分析。只需点击几下即可构建仪表板,进行即兴分析。 Tableau与R对比: 1.从开发的角度讲,Tableau开发上手容易效率高,只要有excel的基础,1天内Tableau就可以出门,并且对数据的导入 阅读全文
posted @ 2016-12-20 16:31 Little_Rookie 阅读(2369) 评论(0) 推荐(0)
摘要:1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少 阅读全文
posted @ 2016-12-16 00:59 Little_Rookie 阅读(106877) 评论(0) 推荐(2)
摘要:Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的 阅读全文
posted @ 2016-12-15 23:17 Little_Rookie 阅读(60611) 评论(0) 推荐(2)
摘要:用Excel做回归分析的详细步骤 一、什么是回归分析法 “回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法: 回归分析是对 阅读全文
posted @ 2016-12-15 22:11 Little_Rookie 阅读(146619) 评论(0) 推荐(9)
摘要:常用图形的适用场景、优势、劣势 柱形图:适用场景:它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。优势:柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。劣势:柱状图的局限在于只适用中小规模的数据集。 折线图: 适用场景: 折线图适合二维的大 阅读全文
posted @ 2016-12-15 20:24 Little_Rookie 阅读(9026) 评论(0) 推荐(0)
摘要:漏斗图适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在。在网站分析中,通常用于转化率比较,它不仅能展示用户从进入网站到实现购买的最终转化率,还可以展示每个步骤的转化率,如图9-91所示。 图9-91 使用漏斗图展示的网站客户转化率 漏斗图不 阅读全文
posted @ 2016-12-15 19:02 Little_Rookie 阅读(14348) 评论(0) 推荐(0)
摘要:文中的图表只是方便以后记忆,故不详,具体细节没有截图保存,详细了解的,请自行百度 阅读全文
posted @ 2016-12-15 18:54 Little_Rookie 阅读(1086) 评论(0) 推荐(0)
摘要:雷达图的作用 雷达图是专门用来进行多指标体系比较分析的专业图表。从雷达图中可以看出指标的实际值与参照值的偏离程度,从而为分析者提供有益的信息。雷达图一般用于成绩展示、效果对比量化、多维数据对比等等,只要有前后2组3项以上数据均可制作雷达图,其展示效果非常直观,而且图像清晰耐看,而且通过EXCEL 2 阅读全文
posted @ 2016-12-15 18:52 Little_Rookie 阅读(26405) 评论(0) 推荐(0)
摘要:使用场景:一项市场调查研究中,男性和女性、赞同和反对、满意和不满意的两方面的消费者,他们在某些项目上的指标分布特性一项产品组合决策中,乐观场景和悲观场景下各产品的获利情况一个产品试销活动中,不同门店渠道使用不同的折扣率,销量与折扣率的是否存在比例关系等 文中的金字塔条形图只是方便以后记忆,故不详,具 阅读全文
posted @ 2016-12-15 18:45 Little_Rookie 阅读(6645) 评论(0) 推荐(0)
摘要:在Excel中插入饼图时有时会遇到这种情况,饼图中的一些数值具有较小的百分比,将其放到同一个饼图中难以看清这些数据,这时使用复合条饼图就可以提高小百分比的可读性。 文中的复合饼图只是方便以后记忆,故不详,详细了解的,请自行百度 阅读全文
posted @ 2016-12-15 18:40 Little_Rookie 阅读(2266) 评论(0) 推荐(0)
摘要:用户PERSONA的含义: P 代表基本性(Primary research)指该用户角色是否基于对真实用户的情景访谈E 代表移情性(Empathy)指用户角色中包含姓名、照片和产品相关的描述,该用户角色是否引起同理心。 R 代表真实性(Realistic)指对那些每天与顾客打交道的人来说,用户角色 阅读全文
posted @ 2016-12-15 11:25 Little_Rookie 阅读(15142) 评论(0) 推荐(1)
摘要:一、CART决策树模型概述(Classification And Regression Trees) 决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节点表示树选择那几个变量(属性)作为划分,每棵树的叶节点表示为一个类的标号,树的最顶层为根节点。 决策树是 阅读全文
posted @ 2016-12-13 18:01 Little_Rookie 阅读(45473) 评论(1) 推荐(0)
摘要:在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价、身高、GDP、学生成绩等,发现这些被预测的变量都属于连续型变量。然而有些情况下,被预测变量可能是二元变量,即成功或失败、流失或不流失、涨或跌等,对于这类问题,线性回归将束手无策。这个时候就需要另一种回归方法进行预测,即Logi 阅读全文
posted @ 2016-12-13 17:06 Little_Rookie 阅读(187790) 评论(2) 推荐(8)
摘要:如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你,或许会有柳暗花明的感 阅读全文
posted @ 2016-12-13 01:15 Little_Rookie 阅读(27844) 评论(1) 推荐(2)
摘要:含有x和y这两个变量的线性回归是所有回归分析中最常见的一种;而且,在描述它们关系的时候,也是最有效、最容易假设的一种模型。然而,有些时候,它的实际情况下某些潜在的关系是非常复杂的,不是二元分析所能解决的,而这时,我们需要多项式回归分析来找到这种隐藏的关系。 让我们看一下经济学里的一个例子:假设你要买 阅读全文
posted @ 2016-12-12 16:36 Little_Rookie 阅读(24967) 评论(0) 推荐(0)
摘要:转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型。在许多生活和工作的实际问题中,影响因变量的因素可能不止一个,比如对于知识水平越高的人,收入水平也越高,这样的一个结论。这其中可能包括了因为更好的家庭条件, 阅读全文
posted @ 2016-12-06 19:05 Little_Rookie 阅读(15203) 评论(1) 推荐(0)
摘要:转载自:http://blog.fens.me/r-linear-regression/ 前言 在我们的日常生活中,存在大量的具有相关性的事件,比如大气压和海拔高度,海拔越高大气压强越小;人的身高和体重,普遍来看越高的人体重也越重。还有一些可能存在相关性的事件,比如知识水平越高的人,收入水平越高;市 阅读全文
posted @ 2016-12-06 18:58 Little_Rookie 阅读(41898) 评论(1) 推荐(0)
摘要:mysql方法来源于:http://www.cnblogs.com/jjcc/p/5896588.html ###在网上看到一篇,非常赞的方法### 比如说要获取班级的前3名,mysql就可以用GROUP_CONCAT + GROUP BY + substring_index实现。 考试表 DROP 阅读全文
posted @ 2016-12-04 18:26 Little_Rookie 阅读(5464) 评论(0) 推荐(1)
摘要:假设一个数据集有n个样本,每个样本有m个特征,样本标签y为{0, 1}。 数据集可表示为: 其中,x(ij)为第i个样本的第j个特征值,y(i)为第i个样本的标签。 X矩阵左侧的1相当于回归方程的常数项。 每个特征有一个权重(或系数),权重矩阵为: 开始可以将权重均初始化为1。 将特征及权重分别相乘 阅读全文
posted @ 2016-12-02 14:59 Little_Rookie 阅读(5278) 评论(1) 推荐(0)