2013.1.10 - NER

Posted on 2013-02-18 16:42  SnakeHunt2012  阅读(142)  评论(0)    收藏  举报

晚上对CRF++的效果做了一下测试,结果证明这个CRF++比较厉害,我不知道其他算法效果怎么阿越难过,但是这个结果我觉的比较高了就:

third:  42322
forth:  41785
third_and_forth:        41785
P value is:     1.000000
R value is:     0.987312
F value is:     0.993615

一共投放了42322个实体
共召回41785个实体
而且这41785个实体全部正确

准确率 100.00%
召回率 98.73%
F值 99.36%

另外在这次实测中,尝试过下面几种方法来匹配Unicode全角字符:

$full_width = qr/[\x{1100}-\x{115F}\x{11A3}-\x{11A7}\x{11FA}-\x{11FF}\x{2329}\x{232A}\x{2E80}-\x{303E}\x{3040}-\x{4DBF}\x{4E00}-\x{A4CF}\x{A960}-\x{A97F}\x{AC00}-\x{D7FF}\x{F900}-\x{FAFF}\x{FE10}-\x{FE1F}\x{FE30}-\x{FE6F}\x{FF01}-\x{FF60}\x{FFE0}-\x{FFE7}]/;

$full_width = qr/[^\x00-\xff]/;

也许是我语法不对,也许是代码本身的编码问题。反正这两种方案都失败了,最后还是用的最无奈的方法:

$full_width = qr/[^a-zA-Z_ \t\r\n]/;

等以后有机会再尝试吧。