[数据结构与算法 04] 数组----最基础的数据结构

参考：https://time.geekbang.org/column/article/40036

警惕数组越界

即长度为 3 的数组 int arr[3]，计算机分配为 arr[2], arr[1], arr[2]，在用到时候访问了 arr[3]或者后面的不存在的数组元素

数组越界在 C 语言中是一种未决行为，并没有规定数组访问越界时编译器应该如何处理。

因为，访问数组的本质就是访问一段连续内存，只要数组通过偏移计算得到的内存地址是可用的，那么程序就可能不会报任何错误

Java 本身就会做越界检查，比如会抛出 java.lang.ArrayIndexOutOfBoundsException

存储数据的结构

线性表：

数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向

数组、链表、队列、栈

非线性表：

数据之间并不是简单的前后关系

散列表、二叉树、堆、跳表、图、Trie 树

数组（Array）

是一种线性表数据结构
它用一组连续的内存空间，来存储一组具有相同类型的数据

造就了 随机访问 的特性

弊端： “增加、删除等等操作变得低效” ---- 因为需要做大量的数据搬移工作

插入

假设数组的长度为 n，

现在，如果我们需要将一个数据插入到数组中的第 k 个位置。

为了把第 k 个位置腾出来，给新来的数据，我们需要将第 k～n 这部分的元素都顺序地往后挪一位

优化：

数组有序，不可优化

数组无序，将 k 位置放到最后，然后将新元素放到 k 位置

删除

如果我们要删除第 k 个位置的数据，为了内存的连续性，也需要搬移数据，不然中间就会出现空洞，内存就不连续了

优化：

为了避免 d，e，f，g，h 这几个数据会被搬移三次，我们可以先记录下已经删除的数据
每次的删除操作并不是真正地搬移数据，只是记录数据已经被删除
当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作

这样就大大减少了删除操作导致的数据搬移

类似于 JVM 标记清除垃圾回收算法的核心思想

思考：

突然想到了垃圾桶

生活中，我们扔进屋里垃圾桶的垃圾，并没有消失，只是被 ''标记'' 成了垃圾

只有垃圾桶塞满时，才会清理垃圾桶，再存放垃圾

1）如何实现的根据下标随机访问数组元素?

拿一个长度为 10 的 int 类型的数组来举例

int[] a = new int[10]

计算机给数组 a[10]，分配了一块连续内存空间 1000～1039，其中，内存块的首地址为 base_address = 1000

因为

计算机会给每个内存单元分配一个地址
计算机通过地址来访问内存中的数据

所以在计算机访问数组的某个元素时，会先计算该元素的内存地址：

a[i]_address = base_address + i * data_type_size

数组某元素的地址 = 数组内存块首地址 + i * 数组每个元素的大小

面试问：“数组和链表的区别”
答：“链表适合插入、删除时间复杂度为 O(1)

数组支持随机访问，根据数组下标访问的时间复杂度为 O(1)”

2）容器能否完全替代数组

如果你是 Java 工程师，几乎天天都在用 ArrayList，对它应该非常熟悉。

那 ArrayList 与数组相比，到底有哪些优势呢

ArrayList 最大的优势就是可以将很多数组操作的细节封装起来了。

比如前面提到的数组插入、删除数据时需要搬移其他数据等。

另外，它还有一个优势，就是支持动态扩容

1^o数组本身在定义的时候需要预先指定大小，因为需要分配连续的内存空间。

如果我们申请了大小为 10 的数组，当第 11 个数据需要存储到数组中时，我们就需要重

新分配一块更大的空间，将原来的数据复制过去，然后再将新的数据插入

2^o如果使用 ArrayList，我们就完全不需要关心底层的扩容逻辑

ArrayList 已经帮我们实现好了。

每次存储空间不够的时候，它都会将空间自动扩容为 1.5 倍大小

注意：

因为扩容操作涉及内存申请和数据搬移，是比较耗时的。

所以，如果事先能确定需要存储的数据大小，最好在创建 ArrayList 的时候事先指定数据大小

比如我们要从数据库中取出 10000 条数据放入 ArrayList。

我们看下面这几行代码，你会发现，相比之下，事先指定数据大小可以省掉很多次内存申请和数据搬移操作

ArrayList<User> users = new ArrayList(10000);
for (int i = 0; i < 10000; ++i) {
    users.add(xxx);
}

1) Java ArrayList 无法存储基本类型

比如 int、long，需要封装为 Integer、Long 类

而 Autoboxing、Unboxing 则有一定的性能消耗

所以如果特别关注性能，或者希望使用基本类型，就可以选用数组

2) 如果数据大小事先已知，并且对数据的操作非常简单，用不到 ArrayList 提供的大部分方法，也可以直接使用数组

3) 当要表示多维数组时，用数组往往会更加直观。

比如 Object[][] array

而用容器的话则需要这样定义：ArrayList<arraylist<object>>array

对于业务开发，直接使用容器就足够了，省时省力。毕竟损耗一丢丢性能，完全不会影响到系统整体的性能。

但是做一些非常底层的开发，比如开发网络框架，性能的优化需要做到极致，这个时候数组就会优于容器，成为首选

3）为什么大多数编程语言中，数组要从 0 开始编号，而不是从 1 开始呢？

从数组存储的内存模型上来看，“下标”最确切的定义应该是“偏移（offset）”。

前面也讲到，如果用 a 来表示数组的首地址:

a[0]就是偏移为 0 的位置，也就是首地址
a[k]就表示偏移 k 个 type_size 的位置

所以计算 a[k]的内存地址只需要用这个公式

a[k]_address = base_address + k * type_size

但是，如果数组从 1 开始计数，那我们计算数组元素 a[k]的内存地址就会变为

a[k]_address = base_address + (k-1)*type_size

不难发现，从 1 开始编号，每次随机访问数组元素都多了一次减法运算，对于 CPU 来说，就是多了一次减法指令

数组作为非常基础的数据结构，通过下标随机访问数组元素又是其非常基础的编程操作，效率的优化就要尽可能做到极致

所以为了减少一次减法操作，数组选择了从 0 开始编号，而不是从 1 开始

4）二维数组内存寻址

对于 m * n 的数组

a [ i ][ j ] (i < m, j < n)的地址为： address = base_address + ( i * n + j) * type_size

posted @ 2020-02-09 18:09 耶梦加德阅读(194) 评论(0) 收藏举报

刷新页面返回顶部

我即狂澜，且力不可挽

[数据结构与算法 04] 数组----最基础的数据结构

公告