2013.9.3 - OpenNER第十一天

Posted on 2014-02-18 16:34  SnakeHunt2012  阅读(286)  评论(0)    收藏  举报

下午接受了天猫某高管的交叉面试,在图书馆电面的,感觉面的不怎么好,他先问了我飞天的情况,还有我做了什么,他感觉和我聊不到一起去,我感觉应该是下午在地下铁喝的那杯咖啡让我慌了神,后来他又问了大数组抽取最大十个数的问题,我没答上来,反正就是感觉不会再爱了。。。

晚上值班的时候,跟大师兄关于OpenNER在会议室碰头,确定了OpenNER大的方向就是两个工期:

一期:
对任意领域X,仅用X领域实体进行训练,然后输入一个X领域实体能够分类(是不是X领域实体)。
二期:
 
用自然文本提高准确度。
然后确定了一期初期目前的两个阶段:
第一步.实体内部词语间紧密度:
 
这个效果想做成这样,就是用现成的实体当做训练,然后拿来一个新实体,训练后的模型能对这个实体进行切分,讲实体切分成词组,而且词组与此组间的缝隙应该不一样,例如:
 
训练语料:
 
硫酸铜
碳酸
硫酸
碳酸铁
硝酸铁
硫酸铝
碳酸铝
硝酸铝
测试语料:
硝酸铜
预期结果:
硝.酸..铜
(其中"."的多少代表间隙的宽度)
 
第二步.词语搭配简单推测:
 
这个效果想做成这样,通过对训练样例(已有实体)的观察,能够总结出搭配方式,然后这种方式能够参与未知实体的判别:
训练语料:
硫酸铁
硫酸镁
硝酸铁
硝酸镁
碳酸铁
碳酸镁
氧化铁
氧化镁
氧化铜
测试语料:
硫酸铜
硝酸铜
碳酸铜
预期结果:
硫酸铜(正例)
硝酸铜(正例)
碳酸铜(正例)

昨天还在看紧密度的论文,还有那个网站,不过还不太明白,周日好好看一天,然后找师兄讨论,争取拿出第一步的方案。