【源码】String类、jdk1.6subString内存泄漏、字符串拼接几种区别、

一、String类源码

出于安全性考虑，字符串经常作为网络连接、数据库连接等参数，不可变就可以保证连接的安全性。

String类实现了3个接口：

　　1.实现了io流的Serializable接口，用于表明String类的对象可被序列化.String在实现了Serializable接口之后，所以支持序列化和反序列化支持。Java的序列化机制是通过在运行时判断类的serialVersionUID来验证版本一致性的。在进行反序列化时，JVM会把传来的字节流中的serialVersionUID与本地相应实体（类）的serialVersionUID进行比较，如果相同就认为是一致的，可以进行反序列化，否则就会出现序列化版本不一致的异常(InvalidCastException).

　　2.实现Comparable接口，用于表明String类的对象进行整体排序，定义的泛型为String类，说明给Comparable的数据类型只能是String类
　　3.实现CharSequence接口，用于表明char值得一个只读的字符序列。此接口对许多不同种类的char序列提供统一的自读访问。

string的本质是char[ ]字符数组，String类只是封装字符串的一些操作的，真是的字符串就是存在其下value这个字符数组中的。　　

public final class String implements java.io.Serializable, Comparable<String>, CharSequence {
    /** The value is used for character storage. */
    private final char value[];    //字符数组
　  //private final char[] value;

　  //hash是String实例化的hashcode的一个缓存。字符串的不变性确保了hashcode的值一直是一样的，在需要hashcode时，就不需要每次都计算，这样会很高效。
    private int hash;   //Default to 0

    private static final ObjectStreamField[] serialPersistentFields = new ObjectStreamField[0];

    public String() {
        this.value = "".value;　　//或者可以写this.value = new char[0];构造里只能初始化长度，不能赋值如： =｛'A'｝;
    }

    public String(char value[]) {
        this.value = Arrays.copyOf(value, value.length);
    }
    
　　//本质是持有一个静态内部类，用于忽略大小写得比较两个字符串。
    public static final Comparator<String> CASE_INSENSITIVE_ORDER = new CaseInsensitiveComparator();

    private static class CaseInsensitiveComparator implements Comparator<String>, java.io.Serializable {

　　　　public int compare(String s1, String s2) {
            int n1 = s1.length();
            int n2 = s2.length();
            int min = Math.min(n1, n2);
            for (int i = 0; i < min; i++) {
                char c1 = s1.charAt(i);
                char c2 = s2.charAt(i);
                if (c1 != c2) {
                    c1 = Character.toUpperCase(c1);　　//比较时忽略大小写，同一索引的下标先都转为大写比较,再转为小写比较一次 
                    c2 = Character.toUpperCase(c2);
                    if (c1 != c2) {
                        c1 = Character.toLowerCase(c1);
                        c2 = Character.toLowerCase(c2);
                        if (c1 != c2) {
                            // No overflow because of numeric promotion
                            return c1 - c2;
                        }
                    }
                }
            }
            return n1 - n2;
        }

        private Object readResolve() { 
            return CASE_INSENSITIVE_ORDER; 
        }
    }
}

　　CASE_INSENSITIVE_ORDER 如果需要忽略大写，比较时传入此比较器即可，因为实现了Comparator比较器接口。【Comparator是比较器，实现Comparable的对象自身可以直接使用比较】

　　　　或者直接使用来持有这个内部类的公共的静态变量 CASE_INSENSITIVE_ORDER，可以简单得用它来比较两个String，这样当要比较两个String时可以通过这个变量来调用。

　　并且String类中提供的compareToIgnoreCase方法其实就是调用这个内部类里面的方法实现的。

　　public int compareToIgnoreCase(String str) {
        return CASE_INSENSITIVE_ORDER.compare(this, str);
    }

　　通过一个String 内部一个static的内部类实现的，那么为什么还要特地写一个内部类呢，这样其实就是为了代码复用，这样在其他情况下也可以使用这个static内部类。

　　因为String本质就是通过char[]实现的，可以发现length()，isEmpty()，charAt()这些方法其实就是在内部调用数组的方法。

　　public int length() {
        return value.length;
    }

    public boolean isEmpty() {
        return value.length == 0;
    }

    public char charAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return value[index];
    }

　　将String转化成二进制：本质上是调用了StringCoding.encode()这个静态方法。

    public byte[] getBytes() {
        return StringCoding.encode(value, 0, value.length);
    }

　　equals：

　　首先进行当前对象和要判断的对象引用的是不是同一个对象（==判断引用地址），如果是则返回true。接着判断要判断的对象是不是String类的实例，如果是，接着转化类型判断两个字符串的长度，如果一样，进行char数组[]的逐一比较。

public boolean equals(Object anObject) {
        if (this == anObject) {　　//首先进行当前对象和要判断的对象引用的是不是同一个对象
            return true;
        }
        if (anObject instanceof String) {
            String anotherString = (String)anObject;　　//判断要判断的对象是不是String类的实例
            int n = value.length;
            if (n == anotherString.value.length) {　　//如果两个字符串长度一样，那么一一比较char[]
                char v1[] = value;
                char v2[] = anotherString.value;
                int i = 0;
                while (n-- != 0) {　　//先取值，后减减
                    if (v1[i] != v2[i])
                        return false;
                    i++;
                }
                return true;
            }
        }
        return false;
    }

　　hashCode：　　　　

　　就是在存储数据计算hash地址的时候，我们希望尽量减少有同样的hash地址。如果使用相同hash地址的数据过多，那么这些数据所组成的hash链就更长，从而降低了查询效率。使用31的原因可能是为了更好的分配hash地址，并且31只占用5bits。在Java中，整型数是32位的，也就是说最多有2^32= 4294967296个整数，将任意一个字符串，经过hashCode计算之后，得到的整数应该在这4294967296数之中。那么，最多有 4294967297个不同的字符串作hashCode之后，肯定有两个结果是一样的。

　　hashCode方法可以保证相同的字符串具有相同的hash值。但是hash值相同并不一定是字符串的value值相同。

    public int hashCode() {
        int h = hash;　　//初始值为0
        if (h == 0 && value.length > 0) {
            char val[] = value;　　//字符数组

            for (int i = 0; i < value.length; i++) {
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }

　　jdk1.7 Switch选择表达式对String支持原理：

　　其实，jdk1.7并没有新的指令来处理switch string，而是通过调用switch中string.hashCode()，将string转换为int类型的hash值。然后用这个Hash值来唯一标识着这个case。

　　当匹配的时候，首先调用这个字符串的hashCode()方法，获取一个Hash值（int类型），用这个Hash值来匹配所有的case，如果没有匹配成功，说明不存在；如果匹配成功了，接着会调用字符串的equals()方法进行匹配。因为hashCode相同，字符串的value不一定相同

　　contentEqauls：

　　主要是用来比较String和StringBuffer或者StringBuild的内容是否一样。可以看到传入参数是CharSequence ，这也说明了StringBuffer和StringBuild同样是实现了CharSequence。源码中先判断参数是从哪一个类实例化来的，再根据不同的情况采用不同的方案，不过其实大体都是采用上面那个for循环的方式来进行判断两字符串是否内容相同。

public boolean contentEquals(CharSequence cs) {
        // Argument is a StringBuffer, StringBuilder
        if (cs instanceof AbstractStringBuilder) {
            if (cs instanceof StringBuffer) {　                synchronized(cs) {　　//如果是线程安全的StringBuffer，那么会使用同步代码锁
                   return nonSyncContentEquals((AbstractStringBuilder)cs);
                }
            } else {　　//如果是StringBuilder
                return nonSyncContentEquals((AbstractStringBuilder)cs);
            }
        }
        // Argument is a String　　//如果被比较的只是Sting类型，那么直接调用equals方法
        if (cs instanceof String) {
            return equals(cs);
        }
        // Argument is a generic CharSequence　　//如果是一个字符序列CharSequence
        char v1[] = value;
        int n = v1.length;
        if (n != cs.length()) {　　//先比较长度
            return false;
        }
        for (int i = 0; i < n; i++) {
            if (v1[i] != cs.charAt(i)) {　　//在比较每一个字符
                return false;
            }
        }
        return true;
    }

　　//字符串与字符串缓冲区比较
    private boolean nonSyncContentEquals(AbstractStringBuilder sb) {
        char v1[] = value;
        char v2[] = sb.getValue();
        int n = v1.length;
        if (n != sb.length()) {
            return false;
        }
        for (int i = 0; i < n; i++) {
            if (v1[i] != v2[i]) {
                return false;
            }
        }
        return true;
    }

　　compareTo：

　　这个就是String对Comparable接口中方法的实现了。

　　先通过比较两个字符串的长度将最小的长度赋值给lim,接着将字符串赋值给两个字符数组，在0~lim范围内进行字符数组的逐一判断，如果有一个不相等则返回两个字符的ASCII码的差值，如果循环结束都相等则返回两个长度的差值。其核心就是那个while循环，通过从第一个开始比较每一个字符，当遇到第一个较小的字符时，判定该字符串小。

　　注意：anotherString.value 不报错是因为在本类中本类对象的引用可以使用private变量

public int compareTo(String anotherString) {
        int len1 = value.length;
        int len2 = anotherString.value.length;
        int lim = Math.min(len1, len2);　　//
        char v1[] = value;
        char v2[] = anotherString.value;

        int k = 0;
        while (k < lim) {
            char c1 = v1[k];
            char c2 = v2[k];
            if (c1 != c2) {
                return c1 - c2;
            }
            k++;
        }
        return len1 - len2;
    }

　　startswith：判断当前字符串是否以某一段其他字符串开始的，和其他字符串比较方法一样，其实就是通过一个while来循环比较。

public boolean startsWith(String prefix, int toffset) {
        char ta[] = value;
        int to = toffset;
        char pa[] = prefix.value;
        int po = 0;
        int pc = prefix.value.length;
        // Note: toffset might be near -1>>>1.
        if ((toffset < 0) || (toffset > value.length - pc)) {
            return false;
        }
        while (--pc >= 0) {
            if (ta[to++] != pa[po++]) {
                return false;
            }
        }
        return true;
    }

　　contact：

　　concat的作用是将str拼接到当前字符串后面，通过代码也可以看出其实就是建一个新的字符串。

public String concat(String str) {
        int otherLen = str.length();
        if (otherLen == 0) {
            return this;
        }
        int len = value.length;
        char buf[] = Arrays.copyOf(value, len + otherLen);
        str.getChars(buf, len);
        return new String(buf, true);
    }

　　replace和replaceAll：

　　都是全部替换匹配的字符，而replaceAll是通过正则表达式的方式，替换所有匹配的字符

　　如果只替换第一个匹配的字符，使用replaceFirst

public String replace(char oldChar, char newChar) {　　//替换单个字符
        if (oldChar != newChar) {
            int len = value.length;
            int i = -1;
            char[] val = value; /* avoid getfield opcode */

            while (++i < len) {
                if (val[i] == oldChar) {
                    break;
                }
            }
            if (i < len) {
                char buf[] = new char[len];
                for (int j = 0; j < i; j++) {
                    buf[j] = val[j];
                }
                while (i < len) {　　//匹配到第一个之后，后面的通过循环遍历，替换所有匹配的字符
                    char c = val[i];
                    buf[i] = (c == oldChar) ? newChar : c;
                    i++;
                }
                return new String(buf, true);
            }
        }
        return this;
    }

    public String replaceAll(String regex, String replacement) {
        return Pattern.compile(regex).matcher(this).replaceAll(replacement);
    }

　　trim：

　　字符的比较其实是比较ASCII码值，而空字符对应的值是32，是最小的，比32小那么就是空字符

public String trim() {
        int len = value.length;
        int st = 0;
        char[] val = value;    /* avoid getfield opcode */

        while ((st < len) && (val[st] <= ' ')) {　　//去除前缀空字符
            st++;
        }
        while ((st < len) && (val[len - 1] <= ' ')) {　　//取出后缀空字符
            len--;
        }
        return ((st > 0) || (len < value.length)) ? substring(st, len) : this;　　//根据新的没有空字符的索引来截取原字符串
    }

　　string.valueOf(int i)与Integer.toString(int i)本质上没什么区别：

String：
    public static String valueOf(int i) {
        return Integer.toString(i);
    }

Integer：
    public static String toString(int i) {
        if (i == Integer.MIN_VALUE)
            return "-2147483648";
        int size = (i < 0) ? stringSize(-i) + 1 : stringSize(i);
        char[] buf = new char[size];
        getChars(i, size, buf);
        return new String(buf, true);
    }

二、jdk1.6的subString内存泄漏问题：

　　在 JDK 1.6 中，java.lang.String 主要由3 部分组成：代表字符数组的value、偏移量offset和长度count

char[] value
offset 偏移 
count 长度

　　字符串的实际内容由value、offset 和count 三者共同决定，而非value 一项。如果字符串value 数组包含100 个字符，而count 长度只有1 个字节，那么这个String 实际上只有1 个字符，却占据了至少100 个字节，那剩余的99 个就属于泄漏的部分，它们不会被使用，不会被释放，却长期占用内存，直到字符串本身被回收。可以看到，str 的count 为1，而它的实际取值为字符串“0”，但是在value 的部分，却包含了上万个字节，在这个极端情况中，原本只应该占用1 个字节的String，却占用了上万个字节，因此，可以判定为内存泄漏。

public String substring(int beginIndex, int endIndex) {
if (beginIndex < 0) {
    throw new StringIndexOutOfBoundsException(beginIndex);
}
if (endIndex > count) {
    throw new StringIndexOutOfBoundsException(endIndex);
}
if (beginIndex > endIndex) {
    throw new StringIndexOutOfBoundsException(endIndex - beginIndex);
}
return ((beginIndex == 0) && (endIndex == count)) ? this : new String(offset + beginIndex, endIndex - beginIndex, value);
}

String(int offset, int count, char value[]) { 　　//构造方法只是改变数组的偏移和长度，不是产生新的String对象，所以造成内存泄露
    this.value = value; 
    this.offset = offset; 
    this.count = count; 
}

构造方法只是改变数组的偏移和长度，不是产生新的String对象，引用的还是原字符串，原字符串永远不会被回收，所以造成内存泄露

而在jdk1.7之后：

public String substring(int beginIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        int subLen = value.length - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
    }

 public String(char value[], int offset, int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= value.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > value.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }
        this.value = Arrays.copyOfRange(value, offset, offset+count);　　//复制创建了一个新的字符数组
    }

可以看到，在substring()的实现中，最终是使用了String 的构造函数，生成了一个新的String，不会造成内存泄露。

三、字符串拼接

concat：连接string各个字符串，是创建新的String对象（字符数组），只能接受String

+：默认是java的String类的一种重载，将+后面的对象，转换为String类型，然后再进行字符串拼接，其实都是产生了一个新的对象，+可以接其它类型

字符串拼接几种方式的效率：+ < contact < StringBuffer < StringBuilder

String apple = "Apple,";
String fruit = apple + "Pear," + "Orange"

其实底层编译器在执行上述代码的时候会的自动引入 java.lang.StringBuilder 类，上面这个例子中，编译器会创建一个 StringBuilder 对象，用来构造最终要生成的 String，并为每一个字符串调用一次 StringBuilder 中的 append() 方法，因此上述代码一共执行了三次 append() 方法。最后调用 toString 生成最终的结果，并保存为 fruit。

但能使用StringBuilder最好不要用 +，如再循环里 += 连接会在每次循环自动创建一次StringBuilder对象，降低效率

posted on 2019-03-07 10:40 平平无奇杨小兵阅读(592) 评论(0) 收藏举报

刷新页面返回顶部

平平无奇杨小兵