晚上对CRF++的效果做了一下测试,结果证明这个CRF++比较厉害,我不知道其他算法效果怎么阿越难过,但是这个结果我觉的比较高了就:
third: 42322
forth: 41785
third_and_forth: 41785
P value is: 1.000000
R value is: 0.987312
F value is: 0.993615
一共投放了42322个实体
共召回41785个实体
而且这41785个实体全部正确
准确率 100.00%
召回率 98.73%
F值 99.36%
另外在这次实测中,尝试过下面几种方法来匹配Unicode全角字符:
$full_width
=
qr/[\x{1100}-\x{115F}\x{11A3}-\x{11A7}\x{11FA}-\x{11FF}\x{2329}\x{232A}\x{2E80}-\x{303E}\x{3040}-\x{4DBF}\x{4E00}-\x{A4CF}\x{A960}-\x{A97F}\x{AC00}-\x{D7FF}\x{F900}-\x{FAFF}\x{FE10}-\x{FE1F}\x{FE30}-\x{FE6F}\x{FF01}-\x{FF60}\x{FFE0}-\x{FFE7}]/;
$full_width = qr/[^\x00-\xff]/;
也许是我语法不对,也许是代码本身的编码问题。反正这两种方案都失败了,最后还是用的最无奈的方法:
$full_width = qr/[^a-zA-Z_ \t\r\n]/;
等以后有机会再尝试吧。
浙公网安备 33010602011771号