2013.2.16 - NER - SnakeHunt2012

2013.2.16 - NER

Posted on 2013-02-18 16:56 SnakeHunt2012 阅读(384) 评论(0) 收藏举报

今天主要写了NER，原来之前的NER是从外部输入是Unicode的，他在内部转换为GBK再处理的，最后又转换为Unicode输出的。原来在 Windows上，直接写在代码里的是Unicode的。因为如果字符串常量前面加上大写的L就表示这个字符串是Unicode编码。然后就是解决最后头疼的问题，就是怎么把wchar_t传给crf++，因为crf++传进去的应该是char型变量，而我现在是unicode的wchar_t，所以就涉及到一个转换的问题，还好在网上找到了一个解决方案：

把char*转换为wchar_t*

用stdlib.h中的mbstowcs_s函数，可以通过下面的例子了解其用法：

char *CStr = "string to convert";

size_t len = strlen(CStr) + 1;

size_t converted = 0;

wchar_t *WStr;

WStr=(wchar_t*)malloc(len*sizeof(wchar_t));

mbstowcs_s(&converted, WStr, len, CStr, _TRUNCATE);

其结果是WStr中储存了CStr的wchar_t版本。

把wchar_t*转换为char*

和上面的方法类似，用stdlib.h中的wcstombs_s函数，例子：

wchar_t *WStr = L"string to convert";

size_t len = wcslen(WStr) + 1;

size_t converted = 0;

char *CStr;

CStr=(char*)malloc(len*sizeof(char));

wcstombs_s(&converted, CStr, len, WStr, _TRUNCATE);

这时WStr中的内容将被转化为char版本储存在CStr中。

链接为：http://blog.163.com/tianshi_17th/blog/static/4856418920085209414977/

然后就比较顺利了，可以正常读入crf，可以正常从crf输出，但是关键问题是，我之前训练的模型是对GBK的，所以还得训练一个Unicode的模型。

刷新页面返回顶部