2013年12月25日
摘要: 项目名称Pipeline项目版本Beta版本负责人北京航空航天大学计算机学院 IloveSE 小组联系方式http://www.cnblogs.com/IloveSE要求发布日期2013-12-24文档作者杨军1 环境要求操作系统需求WINDOWS操作系统运行环境需求windows xp,win 7,win 8 系统数据库需求需配置数据库到Windows(或Windows server)数据源中,数据库名为yuanhang和crawler。2 更新内容解决了翻译过程中的部分网页乱码异常解决了文本提取中的转码问题链接前以小组的数据库,实现软件完整功能增加了异常处理功能,提高了软件性能以下为软件. 阅读全文
posted @ 2013-12-25 03:02 IloveSE 阅读(228) 评论(0) 推荐(0) 编辑
  2013年11月27日
摘要: Pipeline组项目Postmortem1、 设想和目标1)目标我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述?我们的项目是学霸系统PipeLine,软件主要解决学霸系统的内部操作问题,优化后台操作,优化代码,提高执行效率,而非界面抑或整个软件,因此,我们的整个工程面向的用户群体不是传统意义上的用户,而是学霸系统UI组。2)预期是否有充足的时间来做计划?整个工程给予了3周的工作时间来完成,相对比较紧凑,每周都会安排每人组员进行为期20个小时的工作任务。3)团队关系团队在计划阶段是如何解决同事们对于计划的不同意见的?大家通力合作,在合作的工作任务中,一旦出现不 阅读全文
posted @ 2013-11-27 05:13 IloveSE 阅读(357) 评论(0) 推荐(0) 编辑
摘要: Pipeline组Alpha版本发布说明项目名称Pipeline项目版本Alpha版本负责人北京航空航天大学计算机学院 ILoveSE联系方式http://www.cnblogs.com/ ILoveSE要求发布日期2013-11-201 更新内容1.1 修复缺陷1)数据库重复输入2)中文分词算法改进3)Tf-idf关键词算法改进1.2 新增功能1)英文分词算法2)用户手动插入信息2 环境要求操作系统需求Windows操作系统运行环境需求无数据库需求需配置数据库到Windows(或Windows server)数据源中,数据库名为crawler3 安装说明直接解压安装,在Pipeline\P. 阅读全文
posted @ 2013-11-27 04:45 IloveSE 阅读(253) 评论(0) 推荐(0) 编辑
摘要: PIPELINE组测试报告前言:我们组与学霸系统的其他两个小组共同合作开发,组成学霸系统的团体工作。作为学霸系统的一环,我们组起到承上启下的作用,因此,面向群体以及功能实现都是为给下一个组的工作做好预备工作。1.项目基本信息:项目名称学霸系统pipeline客户方北京航空航天大学计算机学院 UI 小组开发方北京航空航天大学计算机学院 I love SE 小组项目委托时间2013-10-16项目测试时间范围起:2013-11-6止:2013-11-13测试参与人员柴泽华,徐姗,李超,杨军,乔立男2.产品面向群体:由于我们这组的项目并不是传统意义上能发布并进行展示的项目,因此相对应的面向的用户群体 阅读全文
posted @ 2013-11-27 04:31 IloveSE 阅读(653) 评论(0) 推荐(0) 编辑
  2013年11月24日
摘要: 今日总结: 针对昨天讨论的结果,今天我们并没有开会,对昨天的任务分配稍作修改,之后大家按照分配好的任务努力。在晚上的时候,我们在群里共享了自己今天的劳动成果,并且PM做出总结,布置明天的任务。今日组员所完成任务具体如下:1、柴泽华(PM):学习tf-idf算法,并且为组员讲明其中的关键部分。★TF-IDF算法在两个方面都有重要的作用:1)提取文章的关键字词2)根据关键词检索出相关度高的文本。这个算法被公认为信息检索领域最重要的发明,是很多算法的模型的基础。 在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以 阅读全文
posted @ 2013-11-24 11:02 IloveSE 阅读(240) 评论(0) 推荐(0) 编辑
  2013年11月21日
摘要: 我们已经确定了具体改进的方向和改进的具体实现措施。具体今天的进度:我们主要明确了重点的改进方向,还有一些细微的地方将在以后的实现过程中改进。1.分词算法分为两类:中文分词(中科院ICTCLAS算法)英文分词(朴素贝叶斯算法(与词库匹配))2.提取关键词的算法tf-idf算法。具体idf的计算方式还要进一步学习。3.数据库操作完善(排除冗余数据)4.增加机器翻译的工作。5.pdf的关键信息提取。明天要完成的事项:1.学习Web数据挖掘中关于朴素贝叶斯算法的部分。(杨军)2.下载中科院ICTCLAS的分词包,进行试验,观察分词效果。(杨军,柴泽华)3.熟悉tf-idf算法。(柴泽华)4.研究C#操 阅读全文
posted @ 2013-11-21 02:34 IloveSE 阅读(174) 评论(0) 推荐(0) 编辑
  2013年11月6日
摘要: 学霸系统PipeLine功能规格说明书共分为以下三部分:1.产品面向用户群体2.用户使用说明3.产品功能具体实现1.产品面向用户群体我们这组的项目并不是传统意义上能发布并进行展示的项目,因此相对应的面向的用户群体也不是传统意义上的用户。我们面向的用户是学霸系统UI组。2.用户使用说明(即UI组调用数据库的方式)UI组在制作提问与解答模块时需要用到我们放在服务器中的数据库。我们的数据库中的数据表共有四张。1.WebPage表这张表里面存有每个网页的具体属性信息。sql语言表示数据表定义如下:Create Table WebPage{wid int primary key, //wid是我们UI组 阅读全文
posted @ 2013-11-06 01:59 IloveSE 阅读(341) 评论(0) 推荐(0) 编辑
  2013年11月4日
摘要: 今天下午,我们小组成员去学长的实验室,同学长开始深入的讨论,今天讨论的整体思路是要落实细节问题。 首先感谢胡仁君学长能够挤出时间耐心帮助我们! 1、我们向学长详细讲述了我们对几个主要类的理解,才发现其中有一些理解不对,幸亏学长及时纠正我们。 2、在我们说出自己的改进想法后,学长也提出他的建议,综合考量之后,我们共同确定了最终的改进方案雏形,具体方案我们会进一步落实并公布。 3、学长向我们推荐微软的新模型N-gram,实在分词中的词组分割使用的,是一种基于机器学习的模型,我们也认为很好,想要学习一下。 4、对于之前学长用到的分词算法和标签提取算法,他们测评的时候发现有更优化的选择。... 阅读全文
posted @ 2013-11-04 00:08 IloveSE 阅读(149) 评论(1) 推荐(0) 编辑
  2013年11月3日
摘要: 今天组员利用下午的时间,在肯德基继续我们的讨论。这次的主题分为三个方面:讨论对于具体类的理解、讨论数据库有关内容、最终确定周六要问学长的问题 首先,大家分别谈了自己对于几个重要类的理解:DataMining、DenoisingData andWordSegment,以及一些展示页面的类,比如:Mainwindow等等。在此要感谢柴泽华和杨军同学,耐心为大家讲解具体实现过程,两位举的例子,让大家对这几个类的实现过程一目了然。在解决这一问题后,我们初步确定关于这几个类的一点改动想法,但认为不够成熟,不知是否可行,想周六作为问题之一,咨询学长。 由于大部分组员都是因为本学期学习数据库,才第一次接触. 阅读全文
posted @ 2013-11-03 23:46 IloveSE 阅读(141) 评论(0) 推荐(0) 编辑
  2013年10月30日
摘要: 今天Daily Scrum主要的工作就是和上一届pipeline组的PM胡仁君学长取得联系,并和他交流我们需要的信息。初步的结果是:1.确定了和学长见面讨论的时间——定于周六下午两点,在学长的实验室。2.询问了学长关于最后成果数据库中数据类型的问题。学长告诉我们上一届的爬虫组是将本地文件的链接存到一个数据库中,然后通过访问这些链接对文件进行操作。这可以让我们在爬虫组没有做好成品之前,就可以先进行试验。3.敲定了最后要呈现的数据库中的数据格式。4.询问了学长如果要进行改进的话,如何在原有代码上进行在开发,哪些地方可以进行改进。5.问了下学长要新看的论文和书的名字,以进行知识储备。要周六面对面咨询 阅读全文
posted @ 2013-10-30 02:43 IloveSE 阅读(130) 评论(0) 推荐(0) 编辑