随笔分类 -  搜索引擎-索引系统

中文分词+socket通信+多线程+mysql
摘要:iconv命令可以将一种已知的字符集文件转换成另一种已知的字符集文件,它的作用是在多种国际编码格式之间进行文本内码的转换。linux下函数原型 size_t iconv(iconv_t cd, char **inbuf, size_t *inbytesleft, char **outbuf, size_t *outbytesleft);linux系统下字符默认编码为utf-8,17搜索中文分词词典构造是用的GB2312编码,所以需要用到字符转码,iconv是一个很好的开发工具包。1.Linux下载安装iconvhttp://ftp.gnu.org/pub/gnu/libiconv/libico 阅读全文
posted @ 2013-06-06 11:01 路过你的苦 阅读(629) 评论(0) 推荐(0)
摘要:1.汉字编码汉字在计算机内部是以内码的形式进行存储的,汉字内码是汉字在汉字信息处理系统中最基本的表达形式,它与汉字交换码、汉字区位码有一定的对应关系。由于自定义编码顺序的特殊性,因而,可通过计算偏移量的方法来定位该汉字在编码表中任意的位置。国标GB2312汉字编码表共收录了6763个汉字。GB2312-80标注规定汉语字符的交换码由两个ASCII码构成:第一个是区码,取值从OxA1到OxF7,共87个区,第二个是位码,从OxA1到0xFE,共94位。区码为OxA1到0xAE的存储全角符号,如标点、字母等。GB2312-80汉字的编码空间是BOA1-FIFE,共有72 * 94 = 6768个码 阅读全文
posted @ 2013-06-06 10:42 路过你的苦 阅读(1421) 评论(0) 推荐(0)