• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
HaibaraAi
博客园    首页    新随笔    联系   管理    订阅  订阅

字符编码地址空间

一个字节8位。一个int占4个字节。
一个char存一个字节,UTF-8用char数组来存,每个char可能存“半个字”或者“三分之一个字”等等。
Unicode表示方式由很多种。每个字按8位(一个字节)为一个“整体”来拆分,叫做UTF-8编码。每个字按16位(两个字节)为一个“整体”来拆分,叫做UTF-16编码。每个字按32位(四个字节)为一个“整体”来拆分,叫做UTF-32编码。
只有UTF-32是定长的,其他都是不固定长度的。
一个UTF-8占1至4个“整体”,所以是1至4个字节。
一个UTF-16字符占1至2个“整体”,所以是占用2个或4个字节。
一个UTF-32只占一个“整体”,所以都是四个字节。
Windows上的wchar_t类型占两个字节,所以用wchar_t数组来存UTF-16编码的文字,其中每个wchar_t储存一个字或半个字。
Linux上的wchar_t类型占4个字节,所以用wchar_t数组来存UTF-32编码的文字,其中每个wchar_t储存一个字。

posted @ 2015-06-11 12:44  HaibaraAi  阅读(234)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3