一、使用并行计算加倍提升性能1、数据并行 VS 任务并行实现数据并行的算法scoket 并行性注意并行计算时间并不与执行任务的计算资源数目成正比(计算机核心),amdahl定律:并行代码的速度受限于串行执行的部分,包括并行性带来的开销在非windows系统中,parallel支持分叉集群(交叉法), Read More
接着上一篇 一、减少内存使用的简单方法1、重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块,只有当y被修改时才会复制到新的内存块,一般来说只要向量没有被其他对象引用,就可以正常修改,以避免复制向量带来的CPU和RAM开销。按照程序属于来说,R是按值传递,应该避免使用sort Read More
这段时间学习了<R高性能编程>这本书,基于这段时间做的项目实践,总结了一些自己的体会,和大家分享 一、为什么R程序有时候会很慢?1、计算性能的三个限制条件 cpu ram io R代码本身2、R是运行时解释的 在运行时解释并执行R代码3、R是单线程的 CPU的强大核心并没卵用,R只会只用一个4、R需 Read More
这两天看书,发现了和数据仓库相关的还有一个叫ODS的概念,它是企业级的全局数据库,用于提供集成的,企业级一致的数据,包含如何从各个子系统中向ODS抽取数据以及面向主题的角度存储数据。 它和数据仓库的主要区别: 数据仓库是面向主题的、集成的、随时间变化的、非易失的、用于进行战略型决策的数据集合。 OD Read More