随笔分类 -  中文信息处理

摘要:使用字库HZK16,该字库是符合GB2312标准的16×16点阵字库,存储每个汉字需要32字节(16*16/8=32字节)。HZK16中的一个汉字的偏移地址计算公式(假设机内码为ABCD):offset=[(AB-0XA1)*94+(CD-0XA1)]*32证明:GB2312编码对所收录字符进行了分... 阅读全文
posted @ 2015-01-15 14:08 xiaoluo91 阅读(461) 评论(0) 推荐(0)
摘要:调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.l... 阅读全文
posted @ 2014-12-30 10:37 xiaoluo91 阅读(257) 评论(0) 推荐(0)
摘要:Base64是一种将二进制转为可打印字符的编码方法,主要用于邮件传输。Base64将64个字符(A-Z,a-z,0-9,+,/)作为基本字符集,把所有符号转换为这个字符集中的字符。编码:编码每次将3字节转为4字节,若输入字节数不是3的倍数,则在末尾填充0字节使其长度为3的倍数。对于3字节,每次取出6... 阅读全文
posted @ 2014-11-03 21:58 xiaoluo91 阅读(217) 评论(0) 推荐(0)