理解BitSet
先来看几道面试题:
1、统计40亿个数据中没有出现的数据,将40亿个不同数据进行排序。
2、现在有1千万个随机数,随机数的范围在1到1亿之间,要求写出一种算法,将1到1亿之间没有在随机数中的数求出来。
3、有一个40G大小的文件,里面存的是32位正整数记录,我需要查找其中一个文件,问如何查找?
……
有木有被上面的大大大数据吓到了无从下手啊?今天介绍的BitSet就可以解决这一问题。
简介
一个按需增长的位向量,C++和java都有提供实现。
BitSet是位操作的对象,值只有1和0。用1位来表示一个数据是否出现过,0为没有出现过,1表示出现过。使用用的时候既可根据某一个是否为0表示此数是否出现过。
比较 
一般,int占4个字节,long占8个字节。而一个字节是由8个位组成的。 
粗略估计,int和BitSet的比例为4*8:1,即32:1。如果是long,差距就更大了。
基本操作
1、重要属性
BitSet在java.util包下,初始大小为64位。
 /*
     * BitSets are packed into arrays of "words."  Currently a word is
     * a long, which consists of 64 bits, requiring 6 address bits.
     * The choice of word size is determined purely by performance concerns.
     */
private final static int ADDRESS_BITS_PER_WORD = 6;
private long[] words;2、构造函数
//构造函数一
  public BitSet(int nbits) {
        // nbits can't be negative; size 0 is OK
        if (nbits < 0)
            throw new NegativeArraySizeException("nbits < 0: " + nbits);
        //new 一个long数组
        initWords(nbits);
        sizeIsSticky = true;
    }
private void initWords(int nbits) {
        words = new long[wordIndex(nbits-1) + 1];
    }    
//构造函数二
 private BitSet(long[] words) {
        this.words = words;
        this.wordsInUse = words.length;
        checkInvariants();
    }3、检查函数
BitSet类中提供了两个内部检查的函数。
 /**
     * Sets the field wordsInUse to the logical size in words of the bit set.
     * WARNING:This method assumes that the number of words actually in use is
     * less than or equal to the current value of wordsInUse!
     */
    private void recalculateWordsInUse() {
        // Traverse the bitset until a used word is found
        int i;
        for (i = wordsInUse-1; i >= 0; i--)
            if (words[i] != 0)
                break;
        wordsInUse = i+1; // The new logical size
    }
  /**
     * Every public method must preserve these invariants.
     */
    private void checkInvariants() {
    //wordsInUse 实际使用的long的个数
        assert(wordsInUse == 0 || words[wordsInUse - 1] != 0);
        assert(wordsInUse >= 0 && wordsInUse <= words.length);
        assert(wordsInUse == words.length || words[wordsInUse] == 0);
    }
4、扩容
跟其他可以自动扩容类相同,扩容发生在set元素时,如下:
 public void set(int bitIndex) {
        if (bitIndex < 0)
            throw new IndexOutOfBoundsException("bitIndex < 0: " + bitIndex);
        int wordIndex = wordIndex(bitIndex);
        //扩容方法
        expandTo(wordIndex);
        words[wordIndex] |= (1L << bitIndex); // Restores invariants
        //检查
        checkInvariants();
    }
 private void expandTo(int wordIndex) {
        int wordsRequired = wordIndex+1;
        if (wordsInUse < wordsRequired) {
            ensureCapacity(wordsRequired);
            wordsInUse = wordsRequired;
        }
    }
//核心扩容方法
 private void ensureCapacity(int wordsRequired) {
        if (words.length < wordsRequired) {
            // Allocate larger of doubled size or required size
            int request = Math.max(2 * words.length, wordsRequired);
            //拷贝
            words = Arrays.copyOf(words, request);
            sizeIsSticky = false;
        }
    }应用实例
为了方便演示,就把数字改小了。需求就是生成10个10以内的随机数,并求出20以内哪些数字没在生成的随机数中。
// 先把随机数放入list中
        Random random = new Random();
        List<Integer> list = new ArrayList<>();
        for (int i = 0; i < 10; i++) {
            int randomResult = random.nextInt(10);
            list.add(randomResult);
        }
        //查看生产的随机数
        System.out.println("产生的随机数有");
        for (int i = 0; i < list.size(); i++) {
            System.out.println(list.get(i));
        }
        System.out.println("the  end");
        //将随机数放入bitset中
        BitSet bit = new BitSet();
        for (int i = 0; i < 10; i++) {
            bit.set(list.get(i));
        }
        //打印没有随机生产的数
        for (int i = 0; i < 20; i++) {
            if (!bit.get(i)) {
                System.out.println(i);
            }
        } 
                    
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号