人无信不立/2008-04-26 22:30

字段超长问题:中文字符不一定都是占2个字节

在Oracle中,经常把字段的类型设置成varchar2。

以前都是认为每一个中文字符都是占用2个字节,即varchar2(30)只能存放15个中文或30个英文。

今天偶然发现,这个其实和Oracle的配置是相关的,用以下语句查询:
   select * from v$nls_parameters t where t.PARAMETER='NLS_CHARACTERSET';
可以查询到当前数据库的字符集,如果value=GB2312,那么一个汉字占用2个字节,如果value=AL32UTF8,那么一个汉字占用3个字节。

在Java中可以使用以下方式取得string的长度:

    private int getLength(NcsTextField t) {
        
try {
            
int iLength = new String(t.getText().getBytes("UTF8"),"iso-8859-1").length();
            
return iLength;
        }
 catch (Exception e) {
            
return t.getText().length();
        }

    }
这样取得的一个汉字占3个字节,

如果把UTF8换成GB2312则一个汉字占2个字节
posted @ 2007-09-18 18:14 永春 阅读(289) 评论(2)  编辑 收藏 所属分类: 数据库

  回复  引用    
#1楼 2007-09-18 21:58 | dogvane [未注册用户]
UTF-8编码采用不定长格式,所有会存在部分中文字符长度为3的情况,不过它在保存英文字符的时候么个字母长度为一个字节

如果是UTF-16编码方式则每个汉字以及每个英文字母都是两个字节
  回复  引用  查看    
#2楼 [楼主]2007-09-19 10:10 | GSpring      
@dogvane
是的,这些以前都没注意过。

标题  
姓名  
主页
Email (博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2007-09-18 18:17 编辑过


相关链接: