摘要: TeamSHIT 欠着一一片Scrum Meeting,本来说是要昨天补的,奈何昨天出去吃饭是醉回来,所以…… 经过周末的突击,Pipeline的大致部分已经完成,中文网页用的是朴素的贝叶斯分词,英文网页没有分词的需求。关键字提取部分借助语料字典和朴素的过滤停用词后取高频的思想,抽取的词基本满足使用要求。 接下去的工作是整合,数据库读写、测试以及小组间的协调了。组员今天任务明天任务胡仁君任务429词频统计任务429词频统计副信息(date,author等)抽取彭笑东 任务343信息抽取的代码复审任务343信息抽取的代码复审李斌任务339制定信息抽取的任务计划,代码覆盖率在60%以... 阅读全文
posted @ 2012-12-09 23:56 teamshit 阅读(207) 评论(0) 推荐(0) 编辑