2012 年 11月随笔档案 - teamshit

Daily Scrum 2012/11/30

摘要：TeamSHIT今天团队讨论了抽取的算法，根据之前的论文阅读情况和讨论，我们选择了基于遗传的一个算法。遗传算法一个核心是构建一部领域的字典。这部字典已经基本获取了，所以下一阶段的核心任务是字典的整合和处理，譬如要根据中文获取英文，因为字典是中文形式给出的。组员今天任务明天任务胡仁君任务292继续小组论文学习交流会任务367确定信息抽取的主要算法任务341Pipeline信息抽取彭笑东任务289学习信息抽取基本算法任务367确定信息抽取的主要算法任务374翻译语料库制定翻译的方案李斌任务373翻译语料库整合语料库任务373翻译语料库整合语料隋宇豪任务287相关数据库的定义和实现建表任务... 阅读全文

posted @ 2012-11-30 23:31 teamshit 阅读(164) 评论(0) 推荐(0)

Daily Scrum 2012/11/29

摘要：TeamSHIT由于明天是编译课程设计的设计文档deadline，全体组员通过，原定今天的Scrum Meeting没有开。所以明天必须要把原定今天的讨论补上——讨论抽取算法。组员今天任务明天任务胡仁君任务292继续小组论文学习交流会任务367确定信息抽取的主要算法任务367确定信息抽取的主要算法彭笑东任务289学习信息抽取基本算法任务367确定信息抽取的主要算法任务374翻译语料库制定翻译的方案李斌任务292学习信息抽取相关论文任务367确定信息抽取的主要算法任务373翻译语料库整合语料库隋宇豪任务287相关数据库的定义和实现建表任务287相关数据库的定义和实现任务375创建语料字... 阅读全文

posted @ 2012-11-29 23:36 teamshit 阅读(162) 评论(0) 推荐(0)

Daily Scrum 2012/11/28

摘要：TeamSHIT今天隋宇豪同学非常高效地和UI小组协商，经过2次迭代终于把Pipeline-UI的数据格式敲定。然后在讨论中我们明确了那些各个表的各个域存放什么信息，由谁负责提取和维护。今天的阅读情况如下：李斌：基于概率模型的Web信息抽取基于概率信息抽取模型的Top-k查询彭笑东：基于二阶隐马尔可夫模型的文本信息抽取基于遗传算法的Web信息抽取隋宇豪：HTML文件的文本信息预处理技术基于Web的电子期刊元数据信息抽取方法组员今天任务明天任务胡仁君任务290学习信息抽取相关论文；任务292继续小组论文学习交流会任务367确定信息抽取的主要算法彭笑东任务289阅读了解信息抽取基本算... 阅读全文

posted @ 2012-11-28 22:07 teamshit 阅读(233) 评论(2) 推荐(0)

Daily Scrum 2012/11/27

摘要：首先必须要吐槽下：经过交换组员这么一折腾，我们小组成员数损失了百分之二十，走人没人来就算了，每个人的任务可是变相增加了，有的组目测早就超出了刚开始的时候的编制（6±1人），当然我们组也是打破编制的组（4人），要按照部队的规矩，经过扫荡之后损失严重的不对是不是该撤番号了...现实是，我们小组还在！但是，项目评分的时候竟然是按人头算的，这就不科学！！！一个项目能用到那么多人？？？一吐槽就收不住了，这样不好不好...转入正题：新的任务2.0开始了，新一期的Daily Scrum也要开始今天主要的任务是学习和讨论，Hurenjun童鞋向每个组员推荐了关于信息抽取的相关论文，大家分头去学习，在阅读全文

posted @ 2012-11-27 21:56 teamshit 阅读(186) 评论(11) 推荐(0)

Pipeline Postmortem M1

摘要：现代软件工程模板From 邹欣开发团队：TeamSHIT2012/11/23设想和目标1、我们的软件要解决什么问题？是否定义得很清楚？是否对典型用户和典型场景有清晰的描述？我们实现的软件是一个网上教学问答系统，具体负责数据Pipeline部分，即处理爬虫爬取的网页，按照UI组的要求提取相应的数据并写入数据库中。2、是否有充足的时间来做计划?M1的开发周期是四周，小组用了一周的时间来计划，但是由于刚上手都没什么经验，不知道一个好的计划需要做到什么程度，也没有去找相关的资料学习下，最后导致出来的计划有点大而泛，没有落实到细处，对任务的难以程度估计不到位，执行起来存在漏洞。3、团队在计划阶段是如何解阅读全文

posted @ 2012-11-26 01:42 teamshit 阅读(268) 评论(0) 推荐(0)

Pipeline集成运行测试情况

摘要：Pipeline集成运行测试报告开发团队：TeamSHIT1 测试数据集为了检验Pipeline Alpha版的开发效果，测试其集成运行情况，我们团队和两个负责开发Crawler的小组协商，制定了一份测试数据集，涵盖问答类网页、文献检索类网页、科普类网页、中英文网页，基本满足Pipeline的测试需求。该数据集具体包括1个百度知道问答网页、3个计算机领域的文献检索网页、4个百度百科科普网页、4个博客园博问问答网页以及5个伯克利大学相关网页。Figure 1 Pipeline的主界面以及测试数据集2 测试情况本次测试共发现bug4个，其中解决两个，另两个问题Alpha没有在根本上解决，留到Bet 阅读全文

posted @ 2012-11-19 23:04 teamshit 阅读(326) 评论(1) 推荐(0)

[转]阅读作业（2）---Sheldon Peng‘s[彭笑东版]

摘要：一坨脓包似的权宜代码，被一群盲目的根本不知IT架构为何物的所谓IT“专业人士”永无休止地复制着，粘贴着。这事儿放在今天你也许很难相信，但就是在这令人无比尴尬的混沌之下，沉睡着美轮美奂的Unix大教堂的遗迹，而Unix恰恰是以设计简约、功能实用、执行优雅而著称于世的。（世间荣耀就此消失……）——摘自<A Generation Lost in the Bazaar> 虽说看过了这几篇文章，但是说实话，由于受到语言的限制，对于文章的主题的确实不能很好的把握，但是还好有一篇是中文翻译的！！！就像救命稻草一般映入眼帘。下面就说说我的理解和体会。原文的题目是A Generation Lost 阅读全文

posted @ 2012-11-14 01:06 teamshit 阅读(224) 评论(0) 推荐(0)

阅读作业2 By 胡仁君

摘要：有人负责，才有质量：写给在集市中迷失的一代文中提到《大教堂与集市》一书预测了瀑布模型和大型软件公司的终结。关于瀑布模型我在百度百科搜到如下资料：1970年温斯顿·罗伊斯（Winston Royce）提出了著名的“瀑布模型”。瀑布模型是将软件生存周期的各项活动规定为按固定顺序而连接的若干阶段工作，形如瀑布流水，最终得到软件产品。在开发过程中，如果有信息未被覆盖或者发现了问题，那么开发人员返回上一阶段并进行适当的修改，项目开发进程从一个阶段“流动到”另一个阶段。这些阶段包括制定计划、需求分析、软件设计、程序编写、软件测试和运行维护六个基本活动。瀑布模型规定了它们各自自上而下、相互衔接的固阅读全文

posted @ 2012-11-14 00:27 teamshit 阅读(235) 评论(0) 推荐(0)

[转自Sui老湿]完成任务3——阅读作业2

摘要：作业要求：http://www.cnblogs.com/xinz/archive/2012/10/14/2723635.html 第2次阅读作业要求阅读6篇文章： 1No Silver Bullet: Essence and Accidents of Software Engineering（没有银弹：软件工程的本质和偶然）这篇论文的作者是Frederick P. Brooks, Jr.，曾在IBM任要职。文章的标题译法很多，Essence and Accidents译为本质与偶然基本是直译，《没有银弹：软件工程的本质性与附属性工作》这种翻译更为恰当。文章第一句就说明了何为银弹：只... 阅读全文

posted @ 2012-11-13 22:01 teamshit 阅读(247) 评论(0) 推荐(0)

Daily Scrum 2012/11/09

摘要：@TeamSH-IT今天整合出的结果中，由于编码方式的不确定，部分结果出现乱码。明天争取要实现编码转换。详细的完成情况：组员今天任务明天任务Hu Renjun任务213整合各个模块功能完成完整的数据流过程任务 88整合个模块功能，寻找bug，完善细节考虑翻译和标签Peng Xiaodong 任务87 完善UI调试任务87 完善UI调试Lian Zhaopeng任务88 暂时放下对去噪优化，主要查找一些翻译信息任务88 继续昨天工作Li bin任务83 数据处理——抽取有用信息继续完善代码任务83 数据处理——抽取有用信息继续完善代码Sui Yuhao任务86 保存数据调试代码，找出... 阅读全文

posted @ 2012-11-09 23:35 teamshit 阅读(194) 评论(0) 推荐(0)

Daily Scrum 2012/11/08

摘要：@TeamSH-IT今天经完成了之前在数据定义存在一些问题。sui老师经过小组之间的交流，完成了对数据定义的最终版。周末将进行初步的整合和测试。详细的完成情况：组员今天任务明天任务Hu Renjun任务213整合各个模块功能完成完整的数据流过程任务213整合各个模块功能完成完整的数据流过程Peng Xiaodong 任务87 完善UI完善加入信息的传递过程任务87 完善UI调试Lian Zhaopeng任务82 88一方面继续去噪查找关于翻译的信息任务88 暂时放下对去噪优化，主要查找一些翻译信息Li bin任务83 数据处理——抽取有用信息调试任务83 数据处理——抽取有用信息继... 阅读全文

posted @ 2012-11-08 22:57 teamshit 阅读(194) 评论(0) 推荐(0)

Daily Scrum 2012/11/07

摘要：@TeamSH-IT今天经过讨论发现之前的数据定义存在一些问题，又修改了一次。这次下定决心不能再改文档了，所以讨论地很细致。详细的完成情况：组员今天任务明天任务Hu Renjun任务213撰写technical Spec——系统框架图，细化各个功能模块整合各个模块功能完成完整的数据流过程Peng Xiaodong 任务87 完善UI加入信息传递过程（初步）任务87 完善UI完善加入信息的传递过程Lian Zhaopeng任务82 88一方面继续完成去噪改良一方面研究翻译研究去噪主要是在编码问题任务82 88一方面继续去噪查找关于翻译的信息Li bin任务83 数据处理——抽取有用信... 阅读全文

posted @ 2012-11-07 23:54 teamshit 阅读(189) 评论(3) 推荐(0)

Daily Scrum 2012/11/06

摘要：@TeamSH-IT今天各成员将他们完成的部分签入TFS。详细的完成情况：组员今天任务明天任务Hu Renjun任务213撰写technical Spec任务213撰写technical Spec——系统框架图，细化各个功能模块Peng Xiaodong 任务68 前期UI设计初步小范围的数据测试检查UI的基本功能任务87 完善UI加入信息传递过程（初步）Lian Zhaopeng任务82 数据处理——去噪完成对单个文件的处理。为批量处理做准备Li bin任务83 数据处理——抽取有用信息继续完成代码，作出Q&A部分任务83 数据处理——抽取有用信息完善代码Sui Yuhao任务6.. 阅读全文

posted @ 2012-11-06 23:14 teamshit 阅读(186) 评论(0) 推荐(0)

Technical Spec

摘要：1 项目背景Project: Building Online Education Q&A ecosystemOur Task: Content schema definition &Content Pipeline 要求：定义这个网站需要的内容结构, 并从爬到的内容中抽取元数据 (meta data), 并支持标签, 翻译等功能。 a.Define a schema of "online education Q&A",find out entities and their relationships. b.Input new content into 阅读全文

posted @ 2012-11-06 14:18 teamshit 阅读(412) 评论(0) 推荐(0)

[Sui Yuhao]完成任务（番外篇，与团队项目无关）——How To Tie Your Shoes

摘要：In this case, we are going to write a spec. Suppose there is a English-speaking alien, and he is unable to tie his shoes. So we have to write a short, simple spec to show him how to tie the shoes.We can also add some pictures in the spec.Spec: How To Tie Your Shoes This method is divided into 11... 阅读全文

posted @ 2012-11-06 00:25 teamshit 阅读(974) 评论(3) 推荐(0)

Daily Scrum 2012/11/05

摘要：@TeamSH-ITdaily scrum虽然以为号称周末的缘故暂停了，但是进度并没有放下！写daily scrum的人换了啊换了啊...讨论中提出的一些问题及解决方法：HuRenjun对项目的需求忽然有些模糊，这个Online QA System主要功能是基于搜索引擎的QA对提取查询还是基于数据挖掘的类学术搜索系统。讨论结果：学术搜索功能只是本系统的一小部分，主要的还是基于QA对的查询。详细的完成情况：组员今天任务明天任务Hu Renjun任务213（这个ID伤不起）撰写technical Spec任务213撰写technical SpecPeng Xiaodong 任务68 前... 阅读全文

posted @ 2012-11-05 23:04 teamshit 阅读(204) 评论(0) 推荐(0)

Daily Scrum 2012/11/02

摘要：@TeamSH-IT讨论中提出的一些问题及解决方法：问题：LianZhaopeng提出了一个疑问，爬虫部分是搜集网页链接还是会将网页下载下来。小组讨论结果：我们问了一组爬虫组的同学，说是会将网页下载。因此LZP又多了一个任务——提供一个文件夹地址，获取此文件下的网页文件。听说他去噪已经基本完成了，赞一个！详细的完成情况：组员今天任务明天任务Hu Renjun任务84 数据处理——整合收集整理一些Key Data调试去重功能，并完善任务84 数据处理——整合搜集数据分类方法Peng Xiaodong 任务68 前期UI设计完善UI自己做测试数据任务68 前期UI设计... 阅读全文

posted @ 2012-11-02 23:11 teamshit 阅读(254) 评论(0) 推荐(0)

Daily Scrum 2012/11/01

摘要：@TeamSH-IT讨论中提出的一些问题及解决方法：问题：Hu Renjun要先实现了一个简单的问答去重，但是没有数据来测试呀！而且我们在开发的过程中，爬虫组并不会提供他们爬取的结果，那我们的测试数据怎么搞定？小组讨论结果：HRJ如果需要可以自己手动去搜集几个数据，在Lian Zhaopeng 和 Li Bin开发的功能实现后，我们应当收集一些数据并存入数据库中，方便系统整体的调试和以后的功能演示。问题：譬如百度知道等问答网站，一个问题可能拥有很多回答，需要保存多种回答么？小组讨论结果：暂时只保存一种，在信息抽取部分要尽量抽最佳的回答。详细的完成情况：组员今天任务明天任务Hu ... 阅读全文

posted @ 2012-11-01 23:28 teamshit 阅读(229) 评论(0) 推荐(0)

teamshit

11 2012 档案

公告