基本数据结构的比较

基本数据结构的比较
#

基本数据结构

1. 列表(List)

  元素有放入顺序,元素可重复。

数组实现(ArrayList类)

  JDK8源码中,初始长度是10,每次数组扩展都增加1/2左右。即:

    private void grow(int minCapacity) {      //minCapacity为size+1,每次add元素都要检查
        int oldCapacity = elementData.length;   //扩展前数组的容量
        int newCapacity = oldCapacity + (oldCapacity >> 1);   //扩展后数组的容量约为原容量1.5倍
        if (newCapacity - minCapacity < 0)
            newCapacity = minCapacity;
        elementData = Arrays.copyOf(elementData, newCapacity);
    }
优点:

  可以通过下标来访问或者修改元素,对下标访问的set和get时间复杂度为O(1);

缺点:
  1. 插入和删除的花费开销较大,除非变动是在ArrayList的末端进行。比如当在第一个位置前插入一个元素,那么首先要把所有的元素往后移动一个位置;数组扩展时,需要将原数组的元素全部复制到新数组。
  2. 数组要在连续的空间里存储集合的元素,由于数据存储是连续的,因此支持用下标访问元素;

数组实现(Vector 类)

  同样基于数组实现,会在内存中开辟一块连续的空间来存储。ArrayList是非线程安全的,效率高;Vector是基于线程安全的,但效率低,并且是方法级别的同步,不是绝对的线程安全
  初始容量10,每次数组扩展到原来容量的2倍(每次扩充的容量大小是可以设置的,而ArrayList类不支持设定)。

链表实现(LinkedList类)

  每一个元素存储本身数据的同时还存储上、下两个元素的地址(双向链表)。

优点:
  1. 新项的插入和现有项的删除平均开销很小O(1)(假设变动项的位置已知),因此提供了addFirst和removeFirst, addLast和removeLast, getFirst 和 getLast 等有效添加、删除和访问两端的项的方法;
  2. 可以在非连续的内存空间里面存储一个集合的元素;
缺点:
  1. 根据索引的访问时间复杂度为O(n);
  2. 存放相同多的数据,一般情况下,数组占用较小的内存,而链表还需要存放其前驱和后继的空间。

2. 栈(Stack)

  栈,在计算机中运用广泛,比如说JVM,它就是基于栈来执行指令的。栈是限制插入和删除只能在一个位置上进行的表,该位置是表的末端,叫作栈顶,对栈的基本操作有push(进栈)和pop(出栈),前者相当于插入,后者相当于删除最后一个元素。栈有时又叫作LIFO(Last In First Out)表,即后进先出。

  栈一般有两种实现,所有操作时间复杂度O(1):

  • 栈的链表实现:利用LinkedList类,通过表顶端的元素插入和删除。
  • 栈的数组实现:模仿ArrayList类,和栈相关的有两个元素,arrayList数组和topOfStack索引,初始状态topOfStack==-1,每次进栈一个元素x,topOfStack增1并令arrayList[topOfStack]=x;每次出栈一个元素,我们置返回值arrayList[topOfStack],并令topOfStack减1。

3. 队列(Queue)

  对于队列来说,元素只能从队列尾插入,从队列头访问和删除。普通的队列是一种先进先出(First In First Out,FIFO)的数据结构,而优先队列中,元素都被赋予优先级。当访问元素的时候,具有最高优先级的元素最先被删除。
  队列也是表,一般有两种实现,所有操作时间复杂度O(1)(优先队列是通过大顶堆或者小顶堆实现):

  • 队列的链表实现:利用LinkedList类,通过表尾端插入元素,前端删除元素,并记录队列中元素个数currentSize。
  • 队列的数组实现:保留一个数组theArray以及位置front和back,代表队列的两端;同时还要记录队列中元素个数currentSize。要使一个元素x入队,则currentSize和back增1,theArray[back]=x;要使一个元素出队,我们置返回值theArray[front],且currentSize减1,、front增1。采用循环数组的方式,当front和back到达数组的尾端,他们又绕回开头。

4. 集合(Set)

  元素无放入顺序,元素不可重复(注意:元素虽然无放入顺序,但是元素在set中的位置是由该元素的HashCode决定的,其位置其实是固定的)
  Set接口有两个实现类:HashSet和LinkedHashSet

  • HashSet:(底层由HashMap实现),HashSet类按照哈希算法来存取集合中的对象,存取速度比较快 ,存入HashSet的对象必须定义hashCode()和equals()来确保对象的唯一性。
  • LinkedHashSet:具有HashSet的查询速度,且内部使用链表维护元素的顺序(插入的次序)。于是在使用迭代器遍历Set时,结果会按元素插入的次序显示。

  SortedSet接口有一个实现类:TreeSet 底层是通过 TreeMap来实现的(如同HashSet底层是是通过HashMap来实现的一样),因此二者的实现方式几乎完全一样。

5. 映射(Map)

  元素按键值对存储,一般无放入顺序,其中值可以重复,但键是唯一的,不能重复。Map接口有三个实现类:HashMap,Hashtable,LinkeHashMap

  • HashMap:基于散列表实现,使用对象的“散列码”(hash code)来快速查询(默认使用的是Object的equals()和hashCode()方法,因此如果需要以自己定义的对象作为key,需要重写这两个方法,但是由于String字符串的这两个方法已经重写,以字符串作为key可以不重写),非线程安全,高效,允许有一个key设为null,初始容量16,负载因子0.75(比如容量16,可以存放16*0.75=12个数据,减少冲突),增加方式:一般old*2,由于允许设置初始容量,同时要保证容量增加后要是2的指数,所以容量增加比较复杂,详细看 http://www.cnblogs.com/xzwblog/p/7289952.html#_label2_0;
  • Hashtable:同样基于散列表实现,但线程安全(同样是方法级别的同步),低效,不允许任何key设为null,初始容量11,负载因子0.75,增加方式是old*2+1
  • LinkeHashMap:LinkedHashMap是HashMap的一个子类,它保留插入的顺序。LinkedHashMap采用的hash算法和HashMap相同,但是它重新定义了数组中保存的元素Entry,该Entry除了保存当前对象的引用外,还保存了其上一个插入元素before和下一个插入元素after的引用,从而在哈希表的基础上又构成了双向链接列表。
  • SortedMap接口的实现类:TreeMap 的实现是红黑树算法,每个 Entry 都被当成“红黑树”的一个节点对待,对key进行排序。插入、删除和查询都比较慢,复杂度O(logN),基于hash的复杂度一般为O(1)。但TreeMap 中的所有 Entry 总是按 key 根据指定排序规则保持有序状态,TreeSet 中所有元素总是根据指定排序规则保持有序状态。

HashMap和Hashtable的hash值计算方式也不相同
  HashMap的hash计算参考 http://www.cnblogs.com/xzwblog/p/7289952.html#_label2_0 ,速度更快。
  Hashtable是直接使用对象的hashCode,并且计算在hash表中的索引时直接使用%,如下代码:

        int hash = key.hashCode();
        int index = (hash & 0x7FFFFFFF) % tab.length;

  并且在高并发环境下,完全可以用ConcurrentHashMap来代替Hashtable。

  还有一点不同:HashMap去掉了Hashtable 的contains方法,但是加上了containsValue()和containsKey()方法。

如何实现HashMap的同步?
  HashMap可以通过下面的语句进行同步:Map m = Collections.synchronizeMap(hashMap);,具体而言,该方法返回一个同步的Map,该Map封装了底层的HashMap的所有方法,使得底层的HashMap即使是在多线程的环境中也是安全的。

比较

  Collection、List、Set、Map都是接口,不能实例化。
  JAVA集合只能存放引用类型的的数据,不能存放基本数据类型。
基本数据类类型:存的是数值本身,java中有四类八种基本数据类型,

  • 第一类:整型 byte short int long
  • 第二类:浮点型 float double
  • 第三类:逻辑型 boolean
  • 第四类:字符型 char

引用类型变量:存放的是数据的引用地址,并不是数据的本身,引用类型变量是以间接方式去获取数据。引用类型变量都指向对象,如:数组、类、字符串等。

  Collection接口的常用方法:

  • boolean add(Object o)
  • void clear()
  • boolean isEmpty()
  • boolean contains(Object o)
  • Iterartor iterator()
  • boolean remove(Object o)
  • int size()
  • int hashCode();
  • boolean equals(Object o);
  • Object[] toArray() : 返回一个数组,该数组中包括集合中的所有元素

  List,Set是继承自Collection接口,Map不是。所以记不清队列和栈的添加和删除函数时,一律用add和remove。

总结:
  1. 如果涉及到堆栈,队列等操作,应该考虑用List,对于需要快速插入,删除元素,应该使用LinkedList,如果需要快速随机访问元素,应该使用ArrayList或者直接数组。
  2. 如果程序在单线程环境中,或者访问仅仅在一个线程中进行,考虑非同步的类,其效率较高,如果多个线程可能同时操作一个类,应该使用同步的类。
  3. 在除需要排序时使用TreeSet,TreeMap外,都应使用HashSet,HashMap,因为他们的效率更高。
  4. 要特别注意对哈希表的操作,作为key的对象要正确复写equals和hashCode方法。
  5. 尽量返回接口而非实际的类型,如返回List而非ArrayList,这样如果以后需要将ArrayList换成LinkedList时,客户端代码不用改变。这就是面向接口编程。
注意:

1、Collection没有get()方法来取得某个元素,只能通过iterator()遍历元素。
2、Set和Collection拥有一模一样的接口。
3、List,可以通过get()方法来一次取出一个元素,使用数字来选择一堆对象中的一个,get(0)...。(add/get)。
4、一般使用LinkedList构造栈stack、队列queue。
5、Map用 put(k,v) / get(k),还可以使用containsKey()/containsValue()来检查其中是否含有某个key/value。HashMap会利用对象的hashCode来快速找到key。
6、Map中元素,可以将key序列、value序列单独抽取出来。使用keySet()抽取key序列,将map中的所有keys生成一个Set。使用values()抽取value序列,将map中的所有values生成一个Collection。
  为什么一个生成Set,一个生成Collection?那是因为,key总是独一无二的,value允许重复。

posted @ 2017-07-27 21:40  何必等明天  阅读(334)  评论(0编辑  收藏  举报