tiger54910

导航

 

在CRF++中,存在特征模板的概念,通过定义模板文件中的特征模板来提取特征,进行CRF模型计算。

其特征分以下三个阶段:

1 特征模板:定义从训练集中提取特征的方法

2 特征F:使用特征模板从训练集中提取到的特征字符串,在CRF++中,这些特征都是二值函数

3 活动特征AF: 具体某个特征在某个Tag下出现的情况,af(f,tag)。

在CRF的解码过程,实际上是通过已知的F,展开成AF,并求出最可能的Tag的序列;

因为CRF++只需要写一个特征模板,使用简单。因此在NLP领域得到了广泛的应用。但是,简单的使用界面是有副作用的。

1、通过特征模板,产生了大量的无效特征,上述特征在提高计算精度上贡献有限,但是仍然占用了大量的计算时间

2、通过特征模板,难于表达复杂的特征提取逻辑。

 

我认为一种理想的情况是,由CRF的用户手工写程序进行特征的提取,交由CRF计算模块进行模型的评估计算。

posted on 2008-11-17 09:47  910积件系统  阅读(1685)  评论(0)    收藏  举报