Daily Scrum 2012/12/03

TeamSHIT

今天的Scrum布置了接下来三天的任务,具体如下:

  隋宇豪:完成语料库的数据库设计与实现,继续完成CRAWLER-PIPELINE数据库;

  李斌、彭笑东:语料库翻译

  胡仁君:基于web文本本身,脱离语料库的标签抽取。

 

组员 今天任务 明天任务
胡仁君

任务367

确认信息抽取主要算法

 

任务428

正文分词

任务429

词频统计

 

彭笑东           

 任务368

确认信息抽取主要算法

任务374

翻译语料库

 

 

任务374

翻译语料库

李斌

 任务369

确认信息抽取主要算法

任务373

翻译语料库

 

任务373

翻译语料库

隋宇豪

任务375

创建预料字典数据库

任务287

相关数据库定义与实现

 

其中信息抽取的算法为:  

  1、标签(关键字)信息 基于词频统计,考虑预先有的预料字典和自动生成的关键字两部分。

  2、其他信息 如果有的话,提取。精度要求不高,借用正则式。

 

燃尽图和燃速图

 

            

posted @ 2012-12-03 23:00  teamshit  阅读(171)  评论(0编辑  收藏  举报