2013.9.3 - OpenNER第十一天 - SnakeHunt2012

2013.9.3 - OpenNER第十一天

Posted on 2014-02-18 16:34 SnakeHunt2012 阅读(292) 评论(0) 收藏举报

下午接受了天猫某高管的交叉面试，在图书馆电面的，感觉面的不怎么好，他先问了我飞天的情况，还有我做了什么，他感觉和我聊不到一起去，我感觉应该是下午在地下铁喝的那杯咖啡让我慌了神，后来他又问了大数组抽取最大十个数的问题，我没答上来，反正就是感觉不会再爱了。。。

晚上值班的时候，跟大师兄关于OpenNER在会议室碰头，确定了OpenNER大的方向就是两个工期：

一期：

对任意领域X，仅用X领域实体进行训练，然后输入一个X领域实体能够分类（是不是X领域实体）。

二期：

用自然文本提高准确度。

然后确定了一期初期目前的两个阶段：

第一步.实体内部词语间紧密度：

这个效果想做成这样，就是用现成的实体当做训练，然后拿来一个新实体，训练后的模型能对这个实体进行切分，讲实体切分成词组，而且词组与此组间的缝隙应该不一样，例如：

训练语料：

硫酸铜

碳酸铜

硫酸铁

碳酸铁

硝酸铁

硫酸铝

碳酸铝

硝酸铝

测试语料：

硝酸铜

预期结果：

硝.酸..铜

（其中"."的多少代表间隙的宽度）

第二步.词语搭配简单推测：

这个效果想做成这样，通过对训练样例（已有实体）的观察，能够总结出搭配方式，然后这种方式能够参与未知实体的判别：

训练语料：

硫酸铁

硫酸镁

硝酸铁

硝酸镁

碳酸铁

碳酸镁

氧化铁

氧化镁

氧化铜

测试语料：

硫酸铜

硝酸铜

碳酸铜

预期结果：

硫酸铜（正例）

硝酸铜（正例）

碳酸铜（正例）

昨天还在看紧密度的论文，还有那个网站，不过还不太明白，周日好好看一天，然后找师兄讨论，争取拿出第一步的方案。

刷新页面返回顶部