随笔分类 -  R

摘要:现有数据维度:PassengerId survival 生存 0 = No, 1 = Yespclass 票类 社会经济地位,1 = Upper, 2 = Middle, 3 = Lowersex 性别 Age 年龄 sibsp 兄弟姐妹/配偶在泰坦尼克号上 parch 父母/孩子在泰坦尼克号上 t 阅读全文
posted @ 2017-07-24 17:30 积水成渊数据分析 阅读(2581) 评论(0) 推荐(0)
摘要:一、一元线性回归 以R中自带的trees数据集为例进【微软visual studio2017中R相关数据科学模块】 先绘制一下散点图,看看变量之间是否存在线性关系:体积、树龄 有图得知,存在线性关系,进行建模 将拟合直线绘制到原图上,查看拟合情况 但截距项不应该为负数(无论树龄再小体积也不应该为负数 阅读全文
posted @ 2017-07-20 15:33 积水成渊数据分析 阅读(3171) 评论(0) 推荐(0)
摘要:1、去重distinct 2、抽样 3、返回最高记录top_n 4、筛选 5、select子集 选择以某些字符串开头的列 同样的用法有:ends_with(‘id’),contains(‘date’) 6、arrange排序 7、敲黑板:summarize 阅读全文
posted @ 2017-07-13 16:42 积水成渊数据分析 阅读(576) 评论(0) 推荐(0)
摘要:一、数据变换 中心化、标准化原数据: log变换: apply 既能对行操作,又能对列操作,lapply不需要指定行列,默认对列进行操作 age income store_exp1 4.043051 11.70324 6.2712422 4.143135 11.71184 6.1696233 4.0 阅读全文
posted @ 2017-07-13 13:05 积水成渊数据分析 阅读(443) 评论(0) 推荐(0)
摘要:一、相关统计量 mean平均值 忽略NA求均值 median中位数:粗略统计可使用中位数,如果异常值没有经过处理会影响到均值,而中位数一般在均值附近,因此若在对未经过数据处理的数据进行粗略统计时使用中位数的效果可能会比均值好 Mode众数:一组数据中出现次数最多的值,可同时作用于数字和字符数据 R没 阅读全文
posted @ 2017-07-11 19:29 积水成渊数据分析 阅读(759) 评论(0) 推荐(0)
摘要:散点图plot • plot(v,type,col,xlab,ylab) • v:数值向量。 • type:采用值“p”仅绘制点,“l”仅绘制线和“o”绘制点和线。 • xlab:x轴的标签。 • ylab:y轴的标签。 • main:图表的标题。 • col:用于给点和线的颜色 在绘制第一行后,可 阅读全文
posted @ 2017-07-11 19:09 积水成渊数据分析 阅读(11394) 评论(0) 推荐(0)
摘要:简单函数定义:函数归一化(后边例子中要用到) 斐波那契数列 导入导出 TXT: 安装扩展包 CSV文件的导入导出与TXT一致(要安装扩展包) XML文件 安装扩展包 Jason文件类似于XML,安装Jason,引用 MySQL数据库 install.packages('RMySQL') > head 阅读全文
posted @ 2017-07-11 16:30 积水成渊数据分析 阅读(512) 评论(0) 推荐(0)