最理想的比较字符串函数是CompareString(Ex)和CompareStringOrdinal。对于需要以符合用户语言习惯的方式向用户显示的字符串,请用CompareString(Ex)进行比较。CompareString函数的原型如下:
int CompareString(
LCID locale, //LCID GetThreadLocale();
DWORD dwCmdFlags,
PCTSTR pString1,
int cch1, PCTSTR pString2,
int cch2);
CompareString函数所用的标志
标志 含义
NORM_IGNORECASE
LINGUISTIC_IGNORECASE 忽略大小写
NORM_IGNOREKANATYPE 不区分平假名和片假名字符
NORM_IGNORENONSPACE
LINGUISTIC_IGNOREDIACRITIC 忽略non-spacing字符(译者注:non-spacing字符通常是一些读音符号)
NORM_IGNORESYMBOLS 忽略符号
NORM_IGNOREWIDTH 不区分同一个字符的单字节和双字节形式
SORT_STRINGSORT 标点符号当成符号来处理
Note 2:
CompareStringOrdinal可以用来比较编程类的字符串(如路径名、注册表项/值、XML元素/属性等等),如下所示:
int CompareStringOrdinal(
PCWSTR pString1,
int cchCount1,
PCWSTR pString2,
int cchCount2,
BOOL bIgnoreCase);
函数执行的是码位(code-point)比较,不考虑区域设置,所以速度很快。另外,由于编程类的字符串一般不会向最终用户显示,所以在这种情况下,最适合使用这个函数。注意,此函数只支持Unicode字符串。
Note 3:
CompareString(Ordinal)返回0表明函数调用失败,返回CSTR_LESS_THAN(定义为1)表明pString1小于pString2,返回CSTR_EQUAL(定义为2)表明pString1等于pString2,返回CSTR_GREATER_THAN(定义为3)表明pString1大于pString2。为方便起见,如果函数成功,你可以从返回值中减去2,使结果值与C运行库函数的结果值(-1,0和+1)保持一致。
应该遵循的基本准则:
开始将文本字符串想象为字符的数组,而不是char或字节的数组。
为文本字符和字符串使用泛型(比如TCHAR/PTSTR)。
为字节、字节指针和数据缓冲区使用显式数据类型(BYTE和PBYTE) 。
为literal字符和字符串使用TEXT或_T宏,但为了保持一致性和更好的可读性,请避免两者混用。
执行全局替换。(例如,用PTSTR替换PSTR)。
修改字符串算术问题。例如,函数经常希望你传给它缓冲区的字符数,而不是字节数。这意味着你应该传入_countof(szBuffer),而不是sizeof(szBuffer)。而且,如果需要为一个字符串分配一个内存块,而且知道字符串中的字符数,那么记住内存是以字节来分配的。这意味着你必须调用malloc(nCharacters * sizeof(TCHAR)),而不是调用malloc(nCharacters)。在前面列出的所有基本准则中,这是最难记住的一条,而且如果出错,编译器不会提供任何警告或错误信息。所以,最好定义一个宏来避免犯错:
#define chmalloc(nCharacters) (TCHAR*)malloc(nCharacters * sizeof(TCHAR)).
避免使用printf系的函数,尤其是不要用%s和%S字段类型来进行ANSI与字符串的相互转换。正确的做法是使用MultiByteToWideChar和WideCharToMultiByte函数,详情参见后面的“Unicode与ANSI字符串转换”一节。
UNICODE和_UNICODE符号要么都指定,要么一个都不指定。
对于字符串处理函数,应该遵循以下基本准则:
始终使用安全的字符串处理函数,比如那些后缀为_s的,或者前缀为StringCch的。后者主要在你想明确控制截断的时候使用;如果不想明确控制截断,则首选前者。
不要使用不安全的C运行库字符串处理函数(参见前面的建议)。一般情况下,你使用或实现的任何缓冲区处理例程都必须获取目标缓冲区的长度作为一个参数。C运行库提供了一系列缓冲区处理替代函数,比如memcpy_s,memmove_s,wmemcpy_s或wmemmove_s。只要定义了__STDC_WANT_SECURE_LIB__符号,所有这些方法都是可用的;CrtDefs.h默认定义了此符号。所以,不要对_STDC_WANT_SECURE_LIB__进行undef。
利用/GS (http://msdn2.microsoft.com/en-us/library/aa290051(VS.71).aspx)和/RTCs编译器标志来自动检测缓冲区溢出。
不要用Kernel32方法来进行字符串处理,比如lstrcat和lstrcpy。
在我们的代码中,需要要比较两种字符串。其中,编程类的字符串包括文件名、路径、XML元素/属性以及注册表项/值等等。对于这些字符串,应使用CompareStringOrdinal来进行比较。因为它非常快,而且不会考虑用户的区域设置。这是完全合理的,因为不管程序在世界上的什么地方运行,这种字符串都是不变的。用户字符串则一般要在用户界面上显示。对于这些字符串,应使用CompareString(Ex)来比较,因为在比较字符串的时候,它会考虑用户的区域设置。
Note 4:
判断文本是ANSI字符还是Unicode,测试的字节数越多,结果越精确.
BOOL IsTextUnicode(CONST PVOID pvBuffer, int cb, PINT pResult);
浙公网安备 33010602011771号