2012 年 11月随笔档案 - shoumu

软件工程中的方法学与哲学——第二次阅读作业感想

摘要：第二次的阅读作业，主要是关于软件工程中的一些方法以及软件工程中的一些问题。这次的阅读作业，压力感觉有点大，大部分的文章都是英语的，不是很能够看懂，只能够就着自己的这点水平来谈一下看了这几篇文章的想法吧。既然名字里面已经加入了一个工程，那么就不可能是计算机诞生早期的时候那样，只是一些技术牛人的玩具了。这个时候，所面临问题的复杂度，增长的数量级就不是简单的线性了。在《No Silver Bullet: Essence and Accidents of Software Engineering》这篇文章中，Frederick P. Brooks, Jr.提出了，软件工程中我们现在所面临的软件... 阅读全文

posted @ 2012-11-12 23:48 shoumu 阅读(465) 评论(0) 推荐(0)

提取文档关键词

摘要：（文章为本人原创，转载请注明出处）做团队项目的过程中，有一个工作就是要从文本中提取关键词。我们接收到的文档的样子可能就是一个html的文档，对于这个html文档，有什么样的提取其关键词的策略呢？因为初期做的是一个alpha版本，也就没有足够的时间实现一个好的方法，大概说一下这个版本中我的基本解决方案是： 1）、文档中已经存在关键词对于一个html网页，有些网页实际上是已经提供了关键词了的。但是通常情况下还是存在一些问题的，要么是关键词不是很准确，要么就是关键词数量不够，不能完全概括文章内容。但是话又说回来，提取关键词这一步，谁又能够保证自己的算法做到完全的准确呢？所以，我... 阅读全文

posted @ 2012-11-09 13:57 shoumu 阅读(4726) 评论(0) 推荐(0)

HtmlAglityPack使用心得

摘要：这学期的软件工程课，几个团队合作一个比较大的项目，然后我们团队主要负责爬虫获得的数据的处理，抽取元数据，去重等工作。因为不知道爬虫得到的数据具体是什么样子的，所以我们的工作还要能够对得到的html文档能够做一个解析，我主要负责这一块的工作。因为html不是一种对语法要求不是特别严格的标记语言，所获得的一个html的文件中可能就会存在各种各样的问题，比如一个标签没有闭合，所以在解析的过程中所面对的情况的复杂度就比较大。通过在网络上查找资料，最终我还是选择了采用开源的HtmlAglityPack来解析html网页。 HtmlAglityPack将html我网页建立成一棵DOM树，然后我们... 阅读全文

posted @ 2012-11-06 19:45 shoumu 阅读(660) 评论(0) 推荐(0)

半天成

May be I am a snail,but I would move forward step by step.

11 2012 档案

公告