今天主要写了NER,原来之前的NER是从外部输入是Unicode的,他在内部转换为GBK再处理的,最后又转换为Unicode输出的。原来在 Windows上,直接写在代码里的是Unicode的。因为如果字符串常量前面加上大写的L就表示这个字符串是Unicode编码。然后就是解决最后头 疼的问题,就是怎么把wchar_t传给crf++,因为crf++传进去的应该是char型变量,而我现在是unicode的wchar_t,所以就涉 及到一个转换的问题,还好在网上找到了一个解决方案:
把char*转换为wchar_t*
用stdlib.h中的mbstowcs_s函数,可以通过下面的例子了解其用法:
char *CStr = "string to convert";
size_t len = strlen(CStr) + 1;
size_t converted = 0;
wchar_t *WStr;
WStr=(wchar_t*)malloc(len*sizeof(wchar_t));
mbstowcs_s(&converted, WStr, len, CStr, _TRUNCATE);
其结果是WStr中储存了CStr的wchar_t版本。
把wchar_t*转换为char*
和上面的方法类似,用stdlib.h中的wcstombs_s函数,例子:
wchar_t *WStr = L"string to convert";
size_t len = wcslen(WStr) + 1;
size_t converted = 0;
char *CStr;
CStr=(char*)malloc(len*sizeof(char));
wcstombs_s(&converted, CStr, len, WStr, _TRUNCATE);
这时WStr中的内容将被转化为char版本储存在CStr中。
链接为:http://blog.163.com/tianshi_17th/blog/static/4856418920085209414977/
然后就比较顺利了,可以正常读入crf,可以正常从crf输出,但是关键问题是,我之前训练的模型是对GBK的,所以还得训练一个Unicode的模型。
浙公网安备 33010602011771号