11 2012 档案

摘要:第二次的阅读作业,主要是关于软件工程中的一些方法以及软件工程中的一些问题。这次的阅读作业,压力感觉有点大,大部分的文章都是英语的,不是很能够看懂,只能够就着自己的这点水平来谈一下看了这几篇文章的想法吧。 既然名字里面已经加入了一个工程,那么就不可能是计算机诞生早期的时候那样,只是一些技术牛人的玩具了。这个时候,所面临问题的复杂度,增长的数量级就不是简单的线性了。在《No Silver Bullet: Essence and Accidents of Software Engineering》这篇文章中,Frederick P. Brooks, Jr.提出了,软件工程中我们现在所面临的软件... 阅读全文
posted @ 2012-11-12 23:48 shoumu 阅读(465) 评论(0) 推荐(0)
摘要:(文章为本人原创,转载请注明出处) 做团队项目的过程中,有一个工作就是要从文本中提取关键词。 我们接收到的文档的样子可能就是一个html的文档,对于这个html文档,有什么样的提取其关键词的策略呢? 因为初期做的是一个alpha版本,也就没有足够的时间实现一个好的方法,大概说一下这个版本中我的基本解决方案是: 1)、文档中已经存在关键词 对于一个html网页,有些网页实际上是已经提供了关键词了的。但是通常情况下还是存在一些问题的,要么是关键词不是很准确,要么就是关键词数量不够,不能完全概括文章内容。但是话又说回来,提取关键词这一步,谁又能够保证自己的算法做到完全的准确呢?所以,我... 阅读全文
posted @ 2012-11-09 13:57 shoumu 阅读(4726) 评论(0) 推荐(0)
摘要:这学期的软件工程课,几个团队合作一个比较大的项目,然后我们团队主要负责爬虫获得的数据的处理,抽取元数据,去重等工作。因为不知道爬虫得到的数据具体是什么样子的,所以我们的工作还要能够对得到的html文档能够做一个解析,我主要负责这一块的工作。 因为html不是一种对语法要求不是特别严格的标记语言,所获得的一个html的文件中可能就会存在各种各样的问题,比如一个标签没有闭合,所以在解析的过程中所面对的情况的复杂度就比较大。通过在网络上查找资料,最终我还是选择了采用开源的HtmlAglityPack来解析html网页。 HtmlAglityPack将html我网页建立成一棵DOM树,然后我们... 阅读全文
posted @ 2012-11-06 19:45 shoumu 阅读(660) 评论(0) 推荐(0)