汉字乱码的终极解决方案


汉字乱码的终极解决方案

乱码的原因:

很多存储媒介,如数据库,文件,流等的存储方式都是基于字节流的,程序与这些媒介交互时就会发生字符(char)与字节(byte)之间的转换,

具体情况如下:

如果在以上转换过程中使用的编码方式与字节原有的编码不一致,很可能就会出现乱码。


汉字乱码现状:

也有许多方案解决乱码问题,但都治标不治本....并未从根本上解决乱码问题.所以时不时就会出现乱码的情况...


--终极解决方案---字母化文字
乱码最终解决方案是使用ACSII的26个英文字母来代替,这样就在任何情况下就再也不会乱码了...

如果文字采用非ASCII编码,则会发生乱码,而如果文字采用ASCII来编码,则不会乱码..
只要将文字字母化了,就再也不会发生乱码了..


---一个现成的方案--拼音
我们在存储内容的时候,将其使用拼音存储,则就解决了乱码问题..


但目前的拼音方案有三个小问题
1.文章内容需要分词书写...
参照英文规则书写.
2.音调问题
一般使用可不使用音调,但某些场合需要音调,可简单使用1234来代表四个音调
3.单字识别问题.
极少数情况需要单字识别,可以采用词组提示法

4.国际化读音问题..
一些如x,q的发音不太国际化.可更改为 si/sy , chi/chy


------例子:
比如我们要存储 "一个现成的方案"
只需要简单的存储 "yige sianchen de fangan" ,就可以了,再也不会发生乱码了.

Powered by Zoundry

posted @ 2011-03-22 11:26  attilaxAti  阅读(119)  评论(0编辑  收藏  举报