R语言高性能编程（二）

接着上一篇

一、减少内存使用的简单方法
1、重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块，只有当y被修改时才会复制到新的内存块，
一般来说只要向量没有被其他对象引用，就可以正常修改，以避免复制向量带来的CPU和RAM开销。按照程序属于来说，R是按值传递，
应该避免使用sort 类似的函数，会返回一个副本，资源开销至少和原对象一样大，甚至更大
2、删除不在需要的中间数据
注意在调用rm()的时候，内存不会被立即释放并交还到操作系统，而是在必要的时候，或者当已删除对象的内存量超过阈值的时候，
由R的垃圾回收器自动释放内存
3、运行时计算值而不是永久性存储值
4、交换活跃数据和非活跃数据将一些数据保存到磁盘，saveRDSP readRDS

二、使用有限内存处理大型数据集
1、使用节约内存的数据结构
R存储数据结构的方式？对所有数据类型来说，向量是最基本的结构单元，提供了多种原子向量类型（logic，integer，numeric，complex，character，raw）
很多其他数据结构都可以从这些向量类型构建，R内部存储结构的本质就是向量
2、稀疏矩阵包含大量的零值或者空值 sparse参数
3、对称矩阵 dspmatrix
4、比特向量 R中的逻辑值占4个字节或32个比特位，而比特向量仅用一个比特位存储每个逻辑值。减少32倍，但是不适合存储NA值（bit包）
5、使用内存映射文件并以块的形式处理数据数据不管怎么优化大到放不进内存中的时候就需要以memory -mapped file 的形式存储到磁盘
分块计算，然后合并结构，是否容易实现取决于算法本身
bigmemory big.matrix 支持很多R矩阵上的操作支持big.matrix对象的cran包 biganalytics bigtabulate
ff 和 ffbase 已做过简单的数据测试本机16G 内存 I7700的U 可支持2亿数据量的分块计算是一个很考验算法的难题

--------------------截止到这里我们已经学习了串行R代码的各种优化，下面介绍利用CPU多核并行计算

未完待续.....

posted @ 2017-11-17 18:41 George_sz Views(725) Comments(0) 收藏举报

刷新页面返回顶部

学而不思则罔，思而不学则殆

一个人的奋斗......

R语言高性能编程（二）

公告