随笔分类 -  字符集的东西

摘要:1. Unicode,UCS-2, UCS-4, UTF-8, UTF-16, UTF-32--字节和字符的区别。一个字符可以用多个字节来存储表达。--Big Endian和Little Endian上面提到了一个字符可能占用多个字节,那么这多个字节在计算机中如何存储呢? 比如字符0xabcd,它的存储格式到底是 AB CD,还是 CD AB 呢? 实际上两者都有可能,并分别有不同的名字。如果存储为 AB CD,则称为Big Endian; 如果存储为 CD AB,则称为Little Endian。 具体来说,以下这种存储格式为Big Endian,因为值(0xabcd)的高位(0xab)存储 阅读全文
posted @ 2011-06-29 17:49 能巴 阅读(349) 评论(0) 推荐(0)
摘要:回车和换行有什么区别 回车 \r 本义是光标重新回到本行开头,r的英文return,控制字符可以写成CR,即Carriage Return 换行 \n 本义是光标往下一行(不一定到下一行行首),n的英文newline,控制字符可以写成LF,即Line Feed 在不同的操作系统下,ENTER对应的字符是不同的:UNIX下是\n;WIN下是\r\n;MAC下是\r 阅读全文
posted @ 2010-07-23 15:09 能巴 阅读(212) 评论(0) 推荐(0)
摘要:I met this issue on my laptop with English version XP installed. When installing wangwang from taobao.com, I met 乱码. I first thought it's due to the wangwang is not unicode-based. But I really don't t... 阅读全文
posted @ 2009-10-19 11:26 能巴 阅读(182) 评论(0) 推荐(0)
摘要:Windows (ANSI) code pages Microsoft defined a number of code pages known as the ANSI code pages. Don't confuse "ANSI" with "ASCII". For function ::WideCharToMultiByte and ::MultiByteToWideChar, the... 阅读全文
posted @ 2009-02-06 13:19 能巴 阅读(777) 评论(0) 推荐(0)
摘要:1. Multibyte shows to us as char*. While in fact, it can be any code page encoding, including gbk, utf8, etc. If a char* represents utf8 characters, we need to handle it specially in below way: // C... 阅读全文
posted @ 2008-09-02 23:21 能巴 阅读(754) 评论(0) 推荐(0)
摘要:[转载自:http://blog.csdn.net/fmddlmyy/archive/2005/06/21/399661.aspx] 写这篇文章的起因是这么一个问题:我们在使用和安装Windows程序时,有时会看到以“2052”、“1033”这些数字为名的文件夹,这些数字似乎和字符集有关,但它们究竟是什么意思呢? 研究这个问题的同时,又会遇到其它问题。我们会谈到Windows的内部架构、Win32... 阅读全文
posted @ 2008-08-31 22:48 能巴 阅读(1010) 评论(0) 推荐(0)
摘要:[转载自: http://blog.csdn.net/fmddlmyy/archive/2007/02/14/1510193.aspx] 3 字符编码模型 程序员经常会面对复杂的问题,而降低复杂性的最简单的方法就是分而治之。Peter Constable在他的文章"Character set encoding basics Understanding character set encodings... 阅读全文
posted @ 2008-08-31 22:12 能巴 阅读(1043) 评论(0) 推荐(0)
摘要:[转载自:http://blog.csdn.net/fmddlmyy/archive/2007/02/14/1510189.aspx] 我曾经写过一篇《谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词》(以 下简称《谈谈Unicode编码》),在网上流传较广,我也收到不少朋友的反馈。本文探讨《谈谈Unicode编码》中未介绍或介绍较少的代码页、 Surrogates等问题,补充... 阅读全文
posted @ 2008-08-31 21:48 能巴 阅读(1044) 评论(0) 推荐(0)
摘要:这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢? 我 很早前就发现U... 阅读全文
posted @ 2008-08-06 22:23 能巴 阅读(267) 评论(0) 推荐(0)
摘要:字符,字节和编码 [转载自:http://www.regexlab.com/zh/encoding.htm] 级别:中级 摘要:本文介绍了字符与编码的发展过程,相关概念的正确理解。举例说明了一些实际应用中,编码的实现方法。然后,本文讲述了通常对字符与编码的几种误解,由于这些误解而导致乱码产生的原因,以及消除乱码的办法。本文的内容涵盖了“中文问题”,“乱码问题”。 掌握编码问题的关键是正确地理解相... 阅读全文
posted @ 2008-02-25 14:41 能巴 阅读(539) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2008-02-22 17:51 能巴 阅读(1685) 评论(0) 推荐(0)
摘要:字体就是字的样子,是几何形状信息。 字符集是一个映射表。一个字符是用二进制数字表示的,但具体是什么字符,是根据字符集决定的。打个比方,字符集就像过去的电报编码表,每个字都有个编号。发送电报的时候是发送的一堆数字编号,而对方接受电报的需要根据电报编码表再将编号翻译成字。然后写在电报纸上,具体是用宋体写,还是草书,就由报务员决定了。 阅读全文
posted @ 2007-05-02 12:07 能巴 阅读(1426) 评论(0) 推荐(0)
摘要:一个字符串不指定它使用什么编码是没有意义的。 再也不要假定,“纯”文本(plain text)是ASCII. 没有“纯文本”这个东西。 如果你有一个字符串,在内存中,在文件中,或者在 Email 消息里,你必须知道它的编码是什么。否则你无法正确的解释或者显示给用户。 所有的诸如 “我的网页不能正常显示了”,或者 ”Email 消息不能正常显示了“ 之类的愚蠢问题, 都是因为, 没有告诉... 阅读全文
posted @ 2007-04-28 15:08 能巴 阅读(375) 评论(0) 推荐(0)
摘要:Codepage的定义和历史 字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为 单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.... 阅读全文
posted @ 2007-04-28 14:21 能巴 阅读(1517) 评论(0) 推荐(0)