随笔分类 - 读书笔记
摘要:本文对应《R语言编程艺术》 第14章:性能提升:速度和内存; 第15章:R与其他语言的接口; 第16章:R语言并行计算 性能提升:速度和内存 要使R代码运行速度更快,有以下建议: 消除显示循环: 采用向量化提升速度,因为采用显示循环涉及多次函数调用和迭代,耗费时间,而向量化函数内部是用编译型语言实现
阅读全文
摘要:本文对应《R语言编程艺术》 第8章:数学运算与模拟; 第10章:输入与输出; 第11章:字符串操作; 第12章:绘图 数学运算与模拟 数学函数: 数学函数 说明 exp() 以自然常数e为底的指数函数 log() 自然对数 log10() 以10为底的常用对数 sqrt() 平方根 abs() 绝对
阅读全文
摘要:本文对应《R语言编程艺术》 第7章:R语言编程结构; 第9章:面向对象的编程; 第13章:调试 R语言编程结构 控制语句: 循环: 另外break也可以用在另两种形式的循环语句中。注意repeat没有跳出循环的判断条件,因此使用break(或者类似return())的语句。 除此之外,next语句可
阅读全文
摘要:本文对应《R语言编程艺术》第2章:向量;第3章:矩阵和数组;第4章:列表;第5章:数据框;第6章:因子和表 R语言最基本的数据类型就是向量(vector),单个数值和矩阵都是向量的一种特例。 声明:R中不需要声明变量,但是注意函数式语言的特性,如果读写向量中的元素时,R事先不知道对象是向量的话,则函
阅读全文
摘要:这本书与手上其他的R语言参考书不同,主要从编程角度阐释R语言,而不是从统计角度。因为之前并没有深刻考虑这些,因此写出的代码往往是一条条命令的集合,并不像是“程序”,因此,希望通过学习这本书,能提高编程效率,以及让自己更像是一个“程序员”。 本文对应《R语言编程艺术》第1章:快速入门。 生成向量的函数
阅读全文
摘要:本文对应《R语言实战》第15章:处理缺失数据的高级方法 本文仅在书的基础上进行简单阐述,更加详细的缺失数据问题研究将会单独写一篇文章。 处理缺失值的一般步骤: 缺失数据的分类: 完全随机缺失(MCAR):某变量的缺失数据与其他任何观测或未观测的变量都不相关; 随机缺失(MAR):某变量上的缺失数据与
阅读全文
摘要:本文对应《R语言实战》第14章:主成分和因子分析 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量成为主成分。 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关
阅读全文
摘要:本文对应《R语言实战》第13章:广义线性模型 广义线性模型扩展了线性模型的框架,包含了非正态因变量的分析。 两种流行模型:Logistic回归(因变量为类别型)和泊松回归(因变量为计数型) glm()函数的参数 分布族 默认的连接函数 binomial (link = “logit”) gaussi
阅读全文
摘要:本文对应《R语言实战》第11章:中级绘图;第16章:高级图形进阶 基础图形一章,侧重展示单类别型或连续型变量的分布情况;中级绘图一章,侧重展示双变量间关系(二元关系)和多变量间关系(多元关系)的绘图;高级绘图进阶一章介绍四种图形系统,主要介绍lattice和ggplot2包。 基础图形一章,侧重展示
阅读全文
摘要:本文对应《R语言实战》第12章:重抽样与自助法 之前学习的基本统计分析、回归分析、方差分析,是假定观测数据抽样自正态分布或者其他性质较好的理论分布,进而进行的假设检验和总体参数的置信区间估计等方法。但在许多实际情况中统计假设并不一定满足,比如抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布
阅读全文
摘要:本文对应《R语言实战》第9章:方差分析;第10章:功效分析 本文对应《R语言实战》第9章:方差分析;第10章:功效分析 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(AN
阅读全文
摘要:本文对应《R语言实战》第8章:回归 回归是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量、效标变量或结果变量)的方法。通常,回归分析可以用来挑选与相应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量。 回归分析的各
阅读全文
摘要:本文对应《R语言实战》第6章:基本图形;第7章:基本统计分析 本章讨论的图形,主要用于分析数据前,对数据的初步掌握。想要对数据有一个初步的印象,最好的方式就是观察它,也就是将数据可视化。在这个过程中,我们不必要过于纠结图形是否漂亮美观,而重点关注各个简单图形的含义:观察数据的哪个方面时需要用到哪些图
阅读全文
摘要:本文对应《R语言实战》第4章:基本数据管理;第5章:高级数据管理 创建新变量 算术运算符 + 加 - 减 * 乘 / 除 **或^ 求幂 x%%y 求余(x mod y)。5%%2的结果为1 x%/%y 整数除法。5%/%2的结果为2 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于
阅读全文
摘要:本文对应《R语言实战》前3章,因为里面大部分内容已经比较熟悉,所以在这里只是起一个索引的作用。 第1章 R语言介绍 获取帮助函数 help(), ? 查看函数帮助 example() 使用函数示例 vignette() 列出vignette文档 vignette(“svmdoc”) 打开对应文档 管
阅读全文
摘要:第12章 模型比较 SVM(支持向量机)简介 非线性决策边界问题: 支持向量机(SVM, Support Vector Machine)是由Vapnik等人根据统计学习理论中的结构风险最小化的原则提出的。[2]支持向量机最初用于分类问题,是基于最大间隔准则得到的,通过求解一个二次凸规划问题得到一个极
阅读全文
摘要:第11章 分析社交图谱 因为twitter的api方式改变了,因此按照书上的方法已经不能从twitter上获取到数据了,只能采用代码中附上的数据进行分析,而我安装的gephi无法打开图文件(.graphml)。因此本章仅讨论分析社交的思路,如果后面对web理解深入一点,再把调用api的部分补上。 “
阅读全文
摘要:第10章 kNN:推荐系统 k近邻算法(k-Nearest Neighbors, kNN):思路是,要预测某个点是哪一类,就看离它最近的k个点是哪一类,根据少数服从多数的原则预测目标点的类别。 代码实现: 应用算法: 计算预测与实际不符的观测数与总观测数: 也就是说,准确率为93% 接下来用R语言中
阅读全文
摘要:第9章 MDS:可视化地研究参议员相似性 基于相似性聚类:本章的主旨是,对不同的观测记录,如何理解用距离的概念来阐明它们之间的相似性和相异性。 多维定标技术(multidimensional scaling, MDS),目的是基于观察值之间的距离度量进行聚类。只通过所有点之间的距离度量对数据进行可视
阅读全文
摘要:第8章 PCA:构建股票市场指数 有监督学习:发掘数据中的结构,并使用一个信号量评价我们在探索真实情况这项工作是否进行得很好。 无监督学习:发掘数据中的结构,但没有任何已知答案指导 主成分分析(Principle Components Analysis, PCA):根据每一列包含原始数据信息的多少,
阅读全文
浙公网安备 33010602011771号