2013.2.16 - NER

Posted on 2013-02-18 16:56  SnakeHunt2012  阅读(384)  评论(0)    收藏  举报

今天主要写了NER,原来之前的NER是从外部输入是Unicode的,他在内部转换为GBK再处理的,最后又转换为Unicode输出的。原来在 Windows上,直接写在代码里的是Unicode的。因为如果字符串常量前面加上大写的L就表示这个字符串是Unicode编码。然后就是解决最后头 疼的问题,就是怎么把wchar_t传给crf++,因为crf++传进去的应该是char型变量,而我现在是unicode的wchar_t,所以就涉 及到一个转换的问题,还好在网上找到了一个解决方案:

char*转换为wchar_t*

stdlib.h中的mbstowcs_s函数,可以通过下面的例子了解其用法:

 

char *CStr = "string to convert";

size_t len = strlen(CStr) + 1;

size_t converted = 0;

wchar_t *WStr;

WStr=(wchar_t*)malloc(len*sizeof(wchar_t));

mbstowcs_s(&converted, WStr, len, CStr, _TRUNCATE);

 

其结果是WStr中储存了CStrwchar_t版本。

 

wchar_t*转换为char*

和上面的方法类似,用stdlib.h中的wcstombs_s函数,例子:

 

wchar_t *WStr = L"string to convert";

size_t len = wcslen(WStr) + 1;

size_t converted = 0;

char *CStr;

CStr=(char*)malloc(len*sizeof(char));

wcstombs_s(&converted, CStr, len, WStr, _TRUNCATE);

 

这时WStr中的内容将被转化为char版本储存在CStr中。

链接为:http://blog.163.com/tianshi_17th/blog/static/4856418920085209414977/

然后就比较顺利了,可以正常读入crf,可以正常从crf输出,但是关键问题是,我之前训练的模型是对GBK的,所以还得训练一个Unicode的模型。