随笔分类 - 中文信息处理
摘要:使用字库HZK16,该字库是符合GB2312标准的16×16点阵字库,存储每个汉字需要32字节(16*16/8=32字节)。HZK16中的一个汉字的偏移地址计算公式(假设机内码为ABCD):offset=[(AB-0XA1)*94+(CD-0XA1)]*32证明:GB2312编码对所收录字符进行了分...
阅读全文
摘要:调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.l...
阅读全文
摘要:Base64是一种将二进制转为可打印字符的编码方法,主要用于邮件传输。Base64将64个字符(A-Z,a-z,0-9,+,/)作为基本字符集,把所有符号转换为这个字符集中的字符。编码:编码每次将3字节转为4字节,若输入字节数不是3的倍数,则在末尾填充0字节使其长度为3的倍数。对于3字节,每次取出6...
阅读全文
浙公网安备 33010602011771号