Numpy和Pandas的区别

Numpy:

    首先来说说ndarray,numpy提供了一个N维度的数据类型(ndarray),他描述了相同类型的items集合

    1.ndarray中所有元素的类型都是相同的,而python列表中的元素类型是任意的,所以,ndarray在存储元素的时候,内存可以连续。而python原生list就只通过寻址法找到下一个元素,这虽然也导致了在通用性能方面,numpy的ndarray不及python原声的list,但在科学计算中,numpy的ndarray就可以省掉很多循环语句,代码使用方面也比python原生的list简单得多

    2.ndarray支持并行化运算

    3.numpy底层使用c语言编写,内部解除了GIL锁,对数组的操作速度不受python机制的限制,效率远远高于纯python的代码

      GIL锁:

        熟悉python的都知道,在c语言写的python解释器中存在全局解释器锁,由于全局解释器锁的存在,在同一时间,python解释器之只能运行一个线程,这大大影响了python多线程的性功能。而这个解释器由于历史原因,现在几乎无法消除。

        python的GIL锁之所以会影响多线程等性能,是因为在多线程的情况下,只有当多线程获得了一个全局锁的时候,那么该线程的代码才能运行,而全局锁只有一个,所以使用python多线程在同一时间也只有一个线程在运行,因此在即使多核的情况下也只能发挥出单核的性能y

      python机制:

        解释器是一种让其他程序运行起来的程序,他是代码与机器硬件之间的软件逻辑层,

        python解释器就是能够让python程序在机器上执行的一套程序。

        当我们执行写好的python代码的时候,python解释器会执行两个步骤:

          1.把原始代码编译成字节码

          2.把编译好的字节码转发到pthon虚拟机(PVM)中执行

            

 


      内存管理机制:引用计数、垃圾回收、内存池。

      引用计数:

        引用计数是一种非常高效的内存管理手段, 当一个 Python 对象被引用时其引用计数增加1, 当其不再被一个变量引用时则计数减 1. 当引用计数等于0时对象被删除。

      垃圾回收 :

        1. 引用计数

          引用计数也是一种垃圾收集机制,而且也是一种最直观,最简单的垃圾收集技术。当 Python 的某个对象的引用计数降为 0 时,说明没有任何引用指向该对象,该对象就成为要被回收的垃圾了。比如某个新建对象,它被分配给某个引用,对象的引用计数变为 1。如果引用被删除,对象的引用计数为 0,那么该对象就可以被垃圾回收。不过如果出现循环引用的话,引用计数机制就不再起有效的作用了

        2. 标记清除

          如果两个对象的引用计数都为 1,但是仅仅存在他们之间的循环引用,那么这两个对象都是需要被回收的,也就是说,它们的引用计数虽然表现为非 0,但实际上有效的引用计数为 0。所以先将循环引用摘掉,就会得出这两个对象的有效计数。

        3. 分代回收

          从前面“标记-清除”这样的垃圾收集机制来看,这种垃圾收集机制所带来的额外操作实际上与系统中总的内存块的数量是相关的,当需要回收的内存块越多时,垃圾检测带来的额外操作就越多,而垃圾回收带来的额外操作就越少;反之,当需回收的内存块越少时,垃圾检测就将比垃圾回收带来更少的额外操作。

          举个例子:

            当某些内存块 M 经过了 3 次垃圾收集的清洗之后还存活时,我们就将内存块 M 划到一个集合 A 中去,而新分配的内存都划分到集合 B 中去。当垃圾收集开始工作时,大多数情况都只对集合 B 进行垃圾回收,而对集合 A 进行垃圾回收要隔相当长一段时间后才进行,这就使得垃圾收集机制需要处理的内存少了,效率自然就提高了。在这个过程中,集合 B 中的某些内存块由于存活时间长而会被转移到集合 A 中,当然,集合 A 中实际上也存在一些垃圾,这些垃圾的回收会因为这种分代的机制而被延迟。

          内存池:

            Python 的内存机制呈现金字塔形状,-1,-2 层主要有操作系统进行操作;

            第 0 层是 C 中的 malloc,free 等内存分配和释放函数进行操作;

            第1 层和第 2 层是内存池,有 Python 的接口函数 PyMem_Malloc 函数实现,当对象小于 256K 时有该层直接分配内存;

            第3层是最上层,也就是我们对 Python 对象的直接操作;

            Python 在运行期间会大量地执行 malloc 和 free 的操作,频繁地在用户态和核心态之间进行切换,这将严重影响 Python 的执行效率。为了加速Python 的执行效率,Python 引入了一个内存池机制,用于管理对小块内存的申请和释放。

            Python 内部默认的小块内存与大块内存的分界点定在 256 个字节,当申请的内存小于 256 字节时,PyObject_Malloc会在内存池中申请内存;当申请的内存大于 256 字节时,PyObject_Malloc 的行为将蜕化为 malloc 的行为。当然,通过修改 Python 源代码,我们可以改变这个默认值,从而改变 Python 的默认内存管理行为。

 

pandas:

   pandas是基于numpy的一种工具,该工具是为了解决数据分析任务而建的,pandas纳入了大量库和一些标准的数据库模型,提供了高效率的操作大型数据集所需要的工具,pandas提供了大量快速便捷的处理数据的函数和方法,使python成为了强大而高效的数据分析环境的重要因素之一

 

          

posted @ 2020-12-21 14:12  就叫我老管吧  阅读(3700)  评论(0编辑  收藏  举报