代码改变世界

再谈字符串比较

2004-10-30 18:16 FantasySoft 阅读(...) 评论(...) 编辑 收藏
        最近看到了不少文章[1]都在讨论字符串之间比较的问题,问题的讨论似乎可以更深入一些。请看以下代码:
       
Java:

String ta 
= "ab";
String tb 
= "cd";

String t1 
= "abcd";
String t2 
= "abcd";

String t3 
= "ab" + "cd";
String t4 
= ta + tb;
String t5 
= new String("abcd");

System.
out.println(t1 == t2); // true
System.out.println(t1 == t3); // true
System.out.println(t1 == t4); // false
System.out.println(t1 == t5); // false

C#:

string ta = "ab";
string tb = "cd";

string t1 = "abcd";
string t2 = "abcd";

string t3 = "ab" + "cd";
string t4 = ta + tb;
 string t5 = new string(new char[]{'a','b','c','d'});


Console.WriteLine((
object)t1 == (object)t2); // True
Console.WriteLine((object)t1 == (object)t3); // True
Console.WriteLine((object)t1 == (object)t4); // False
Console.WriteLine((object)t1 == (object)t5); // False

        我一直都以为以上的四个布尔表达失的结果都应该是false,然后事实上只有最后两个是false。对于String这样的引用类型,"=="操作符自然是比较两个操作数是否引用同一个对象,在C#中,由于"=="运算符被重载了,使用"=="实际上是调用了Equals方法,因此需要将string进行显式类型转换为object后再进行操作。正是因为这个结论在我的脑袋中是十分的清晰,所以当我面对着这四个布尔表达式毫不犹豫的得出了全是false的答案。但是,我只意识到了操作符的本质,却忘了考虑操作数本身。事实上,t1、t2和t3是三个不同的变量,但是它们都引用了同一个对象。因此,第一和第二个布尔表达式得到的结果为true是理所当然的事情了。为什么三者会引用同一个对象呢?下面将会做说明。而t5使用了new关键字并调用了类构造方法,在堆中构造了一个新的对象,t5与t1引用了不同的对象,结果为false,这个也是显而易见的。那么为什么t4和t1之间的引用比较会是false呢?
        如果要彻底理解这几个问题,首先就要明确Compile Time和Run Time的区别了。在Java中,会有一个Literal Pool,而C#,则会有一个HashTable来对字符串常量的进行维护和优化,当表达式将一个字符串常量的引用赋给一个变量的时候,如果该字符串常量在Literal Pool已经存在,则不会分配内存以创建新的对象,而是直接将已创建的字符串常量的引用赋给这个变量,如果字符串常量在Literal Pool中是不存在的,则会先创建该字符串对象。这些工作是在Compile Time完成的。所以对于String t3 = "ab" + "cd"这个表达式,由于操作符"+"的操作数是两个常量,那么"+"的操作在Compile Time就可以完成,并且经过优化后,不会创建新的字符串对象,而是引用已经存在于Literal Pool中的"abcd"。而对于String t4 = ta + tb这个表达式,由于操作数是两个变量,而变量的内容在Run Time是有可能发生变化的,Compiler并不能在Compile Time确定t4的内容,因此t4引用的并不是存在于Literal Pool中的"abcd"。
        这样的解释会不会更好一点呢?请各位多多指教。//Bow