摘要: TeamSHIT今天的我们的数据库工作将要告以段落,在服务器上数据库都已建完。翻译遇到一点麻烦,顺延一天。组员今天任务明天任务胡仁君任务428正文分词任务429词频统计任务428正文分词任务429词频统计彭笑东 任务374翻译语料库任务374翻译语料库李斌任务373翻译语料库任务373翻译语料库隋宇豪任务287相关数据库定义与实现任务375创建语料库相关字典燃尽图和燃速图 阅读全文
posted @ 2012-12-04 23:39 teamshit 阅读(167) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT今天的Scrum布置了接下来三天的任务,具体如下: 隋宇豪:完成语料库的数据库设计与实现,继续完成CRAWLER-PIPELINE数据库; 李斌、彭笑东:语料库翻译 胡仁君:基于web文本本身,脱离语料库的标签抽取。组员今天任务明天任务胡仁君任务367确认信息抽取主要算法任务428正文分词任务429词频统计彭笑东 任务368确认信息抽取主要算法任务374翻译语料库任务374翻译语料库李斌任务369确认信息抽取主要算法任务373翻译语料库任务373翻译语料库隋宇豪任务375创建预料字典数据库任务287相关数据库定义与实现其中信息抽取的算法为: 1、标签(关键字... 阅读全文
posted @ 2012-12-03 23:00 teamshit 阅读(171) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT今天团队讨论了抽取的算法,根据之前的论文阅读情况和讨论,我们选择了基于遗传的一个算法。遗传算法一个核心是构建一部领域的字典。这部字典已经基本获取了,所以下一阶段的核心任务是字典的整合和处理,譬如要根据中文获取英文,因为字典是中文形式给出的。组员今天任务明天任务胡仁君任务292继续小组论文学习交流会任务367确定信息抽取的主要算法任务341Pipeline信息抽取彭笑东 任务289学习信息抽取基本算法任务367确定信息抽取的主要算法任务374翻译语料库制定翻译的方案李斌任务373翻译语料库整合语料库任务373翻译语料库整合语料隋宇豪任务287相关数据库的定义和实现建表任务... 阅读全文
posted @ 2012-11-30 23:31 teamshit 阅读(157) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT由于明天是编译课程设计的设计文档deadline,全体组员通过,原定今天的Scrum Meeting没有开。所以明天必须要把原定今天的讨论补上——讨论抽取算法。组员今天任务明天任务胡仁君任务292继续小组论文学习交流会任务367确定信息抽取的主要算法任务367确定信息抽取的主要算法彭笑东 任务289学习信息抽取基本算法任务367确定信息抽取的主要算法任务374翻译语料库制定翻译的方案李斌任务292学习信息抽取相关论文任务367确定信息抽取的主要算法任务373翻译语料库整合语料库隋宇豪任务287相关数据库的定义和实现建表任务287相关数据库的定义和实现任务375创建语料字... 阅读全文
posted @ 2012-11-29 23:36 teamshit 阅读(143) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT今天隋宇豪同学非常高效地和UI小组协商,经过2次迭代终于把Pipeline-UI的数据格式敲定。然后在讨论中我们明确了那些各个表的各个域存放什么信息,由谁负责提取和维护。今天的阅读情况如下:李斌:基于概率模型的Web信息抽取基于概率信息抽取模型的Top-k查询彭笑东:基于二阶隐马尔可夫模型的文本信息抽取 基于遗传算法的Web信息抽取隋宇豪:HTML文件的文本信息预处理技术 基于Web的电子期刊元数据信息抽取方法组员今天任务明天任务胡仁君任务290学习信息抽取相关论文;任务292继续小组论文学习交流会任务367确定信息抽取的主要算法彭笑东 任务289阅读了解信息抽取基本算... 阅读全文
posted @ 2012-11-28 22:07 teamshit 阅读(213) 评论(2) 推荐(0) 编辑
摘要: 首先必须要吐槽下:经过交换组员这么一折腾,我们小组成员数损失了百分之二十,走人没人来就算了,每个人的任务可是变相增加了,有的组目测早就超出了刚开始的时候的编制(6±1人),当然我们组也是打破编制的组(4人),要按照部队的规矩,经过扫荡之后损失严重的不对是不是该撤番号了...现实是,我们小组还在!但是,项目评分的时候竟然是按人头算的,这就不科学!!!一个项目能用到那么多人???一吐槽就收不住了,这样不好不好...转入正题:新的任务2.0开始了,新一期的Daily Scrum也要开始今天主要的任务是学习和讨论,Hurenjun童鞋向每个组员推荐了关于信息抽取的相关论文,大家分头去学习,在 阅读全文
posted @ 2012-11-27 21:56 teamshit 阅读(180) 评论(11) 推荐(0) 编辑
摘要: 现代软件工程模板From 邹欣开发团队:TeamSHIT2012/11/23设想和目标1、我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述?我们实现的软件是一个网上教学问答系统,具体负责数据Pipeline部分,即处理爬虫爬取的网页,按照UI组的要求提取相应的数据并写入数据库中。2、是否有充足的时间来做计划?M1的开发周期是四周,小组用了一周的时间来计划,但是由于刚上手都没什么经验,不知道一个好的计划需要做到什么程度,也没有去找相关的资料学习下,最后导致出来的计划有点大而泛,没有落实到细处,对任务的难以程度估计不到位,执行起来存在漏洞。3、团队在计划阶段是如何解 阅读全文
posted @ 2012-11-26 01:42 teamshit 阅读(262) 评论(0) 推荐(0) 编辑
摘要: Pipeline集成运行测试报告开发团队:TeamSHIT1 测试数据集为了检验Pipeline Alpha版的开发效果,测试其集成运行情况,我们团队和两个负责开发Crawler的小组协商,制定了一份测试数据集,涵盖问答类网页、文献检索类网页、科普类网页、中英文网页,基本满足Pipeline的测试需求。该数据集具体包括1个百度知道问答网页、3个计算机领域的文献检索网页、4个百度百科科普网页、4个博客园博问问答网页以及5个伯克利大学相关网页。Figure 1 Pipeline的主界面以及测试数据集2 测试情况本次测试共发现bug4个,其中解决两个,另两个问题Alpha没有在根本上解决,留到Bet 阅读全文
posted @ 2012-11-19 23:04 teamshit 阅读(304) 评论(1) 推荐(0) 编辑
摘要: 一坨脓包似的权宜代码,被一群盲目的根本不知IT架构为何物的所谓IT“专业人士”永无休止地复制着,粘贴着。这事儿放在今天你也许很难相信,但就是在这令人无比尴尬的混沌之下,沉睡着美轮美奂的Unix大教堂的遗迹,而Unix恰恰是以设计简约、功能实用、执行优雅而著称于世的。(世间荣耀就此消失……)——摘自<A Generation Lost in the Bazaar> 虽说看过了这几篇文章,但是说实话,由于受到语言的限制,对于文章的主题的确实不能很好的把握,但是还好有一篇是中文翻译的!!!就像救命稻草一般映入眼帘。下面就说说我的理解和体会。 原文的题目是A Generation Lost 阅读全文
posted @ 2012-11-14 01:06 teamshit 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 有人负责,才有质量:写给在集市中迷失的一代文中提到《大教堂与集市》一书预测了瀑布模型和大型软件公司的终结。关于瀑布模型我在百度百科搜到如下资料:1970年温斯顿·罗伊斯(Winston Royce)提出了著名的“瀑布模型”。瀑布模型是将软件生存周期的各项活动规定为按固定顺序而连接的若干阶段工作,形如瀑布流水,最终得到软件产品。在开发过程中,如果有信息未被覆盖或者发现了问题,那么开发人员返回上一阶段并进行适当的修改,项目开发进程从一个阶段“流动到”另一个阶段。这些阶段包括制定计划、需求分析、软件设计、程序编写、软件测试和运行维护六个基本活动。瀑布模型规定了它们各自自上而下、相互衔接的固 阅读全文
posted @ 2012-11-14 00:27 teamshit 阅读(227) 评论(0) 推荐(0) 编辑