随笔分类 -  R

摘要:Excel是数据分析中最常用的工具,本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理 ,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过pyt 阅读全文
posted @ 2017-04-24 13:44 Little_Rookie 阅读(80684) 评论(2) 推荐(15)
摘要:我理解的朴素贝叶斯模型 我想说:“任何事件都是条件概率。”为什么呢?因为我认为,任何事件的发生都不是完全偶然的,它都会以其他事件的发生为基础。换句话说,条件概率就是在其他事件发生的基础上,某事件发生的概率。 条件概率是朴素贝叶斯模型的基础。 假设,你的xx公司正在面临着用户流失的压力。虽然,你能计算 阅读全文
posted @ 2017-03-23 23:09 Little_Rookie 阅读(29325) 评论(2) 推荐(0)
摘要:对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。 主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。 2.1 分布分析 分布分析能揭示数据的分布特征和分布类型。对于定性数据,可用饼形图和条形图直观的现实分布情况。 1.定量 阅读全文
posted @ 2017-02-28 00:29 Little_Rookie 阅读(9734) 评论(0) 推荐(0)
摘要:在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等 缺失值处理:删除记 阅读全文
posted @ 2017-02-27 23:39 Little_Rookie 阅读(31887) 评论(0) 推荐(2)
摘要:如何判断我们的线性回归模型是正确的? 1、回归诊断的基本方法opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women)par(mfrow = c(2, 2))plot(fit)par(opar) 为理解这些图形,我们来回顾 阅读全文
posted @ 2017-02-23 22:01 Little_Rookie 阅读(30684) 评论(0) 推荐(1)
摘要:引言 使用stargazer包可以将 R 构建的模型结果以LATEX、HTML和ASCII格式输出,方便我们生成标准格式的表格。再结合rmarkdown,你就可以轻轻松松输出一篇优雅的文章啦~本文“使用说明”部分主要参考stargazer的说明文档。(https://vectorf.github.i 阅读全文
posted @ 2017-02-09 01:39 Little_Rookie 阅读(8957) 评论(0) 推荐(0)
摘要:时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势。 时间序列趋势一般为线性的 阅读全文
posted @ 2017-02-09 01:26 Little_Rookie 阅读(9875) 评论(0) 推荐(0)
摘要:A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以 阅读全文
posted @ 2017-02-09 01:22 Little_Rookie 阅读(38033) 评论(1) 推荐(2)
摘要:Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 关于这个算法有一个非常有名的故事:"尿布和啤酒"。故事是这样的:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿 阅读全文
posted @ 2017-02-09 00:15 Little_Rookie 阅读(52484) 评论(1) 推荐(1)
摘要:聚类的基本思想 俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中。簇内的对象越相似,聚类的效果越好。 定义:给定一个有个对象的数据集,聚类将数据划分为个簇,而且这个划分满足两个条件:(1)每 阅读全文
posted @ 2017-02-08 01:33 Little_Rookie 阅读(34971) 评论(0) 推荐(3)
摘要:今天查了一下R语言中set.seed(),该命令的作用是设定生成随机数的种子,种子是为了让结果具有重复性。如果不设定种子,生成的随机数无法重现。 > x<-rnorm(10) #随机生成10个随机数 > x [1] 0.3897943 -1.2080762 -0.3636760 -1.6266727 阅读全文
posted @ 2017-02-07 17:43 Little_Rookie 阅读(11465) 评论(0) 推荐(0)
摘要:什么是随机森林? 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以 阅读全文
posted @ 2017-02-07 16:57 Little_Rookie 阅读(104335) 评论(3) 推荐(3)
摘要:转载于:http://www.cnblogs.com/pinard/p/6050306.html (楼主总结的很好,就拿来主义了,不顾以后还是多像楼主学习) 决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树 阅读全文
posted @ 2017-02-06 18:39 Little_Rookie 阅读(24400) 评论(0) 推荐(0)
摘要:逻辑回归 因变量随着自变量变化而变化。 多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn。 二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验 阅读全文
posted @ 2017-02-04 10:34 Little_Rookie 阅读(3835) 评论(0) 推荐(0)
摘要:library(jiebaRD)library(jiebaR) ##调入分词的库cutter <- worker()mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) 阅读全文
posted @ 2017-01-24 13:44 Little_Rookie 阅读(7431) 评论(0) 推荐(0)
摘要:wordcloud2函数说明 wordcloud2(data, size = 1, minSize = 0, gridSize = 0, fontFamily = NULL, fontWeight = 'normal', color = 'random-dark', backgroundColor  阅读全文
posted @ 2017-01-23 15:26 Little_Rookie 阅读(31772) 评论(0) 推荐(2)
摘要:计算各种描述性统计量函数脚本(myDescriptStat.R)如下: 示例结果如下: > setwd("./&R笔记/整理")> source("myDescriptStat.R")> w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,5 阅读全文
posted @ 2016-12-23 15:22 Little_Rookie 阅读(1552) 评论(0) 推荐(0)
摘要:最近遇到一个很头疼的事,就是 R语言读写中文编码方式。在网上找到了一篇博文,谢谢博主的精彩分享,让我很快解决了问题,在此也分享一下 R语言读写数据的方法很多,这里主要是我在使用read.csv/read.table和write.csv/write.table时遇到的一些中文格式编码的问题。常见的中文 阅读全文
posted @ 2016-12-22 16:35 Little_Rookie 阅读(30097) 评论(0) 推荐(0)
摘要:在某些时候,需要在R画图中添加中文,但是默认情况下,R对中文的支持不好。 当用R画PDF图,并且图中有中文的时候,安装并加载如下包library(showtext)然后:showtext.auto(enable = TRUE)这句命令表示之后用上同样的字体。如果要添加字体:font.add('Sim 阅读全文
posted @ 2016-12-22 15:12 Little_Rookie 阅读(8811) 评论(0) 推荐(0)
摘要:用户PERSONA的含义: P 代表基本性(Primary research)指该用户角色是否基于对真实用户的情景访谈E 代表移情性(Empathy)指用户角色中包含姓名、照片和产品相关的描述,该用户角色是否引起同理心。 R 代表真实性(Realistic)指对那些每天与顾客打交道的人来说,用户角色 阅读全文
posted @ 2016-12-15 11:25 Little_Rookie 阅读(15155) 评论(0) 推荐(1)