HTML解析器项目进展和新的构思

这个解析器只是作为个人爱好去研究，陆陆续续的投入精力，持续了很长时间，这期间发生了很多的事情。我在上海落脚很长时间后才又继续开发，并把项目命名为Wittiness。

项目的目的：构建一个Web信息挖掘机，能够高效方便的从网页中截取到需要的信息。

构建思路是：解析HTML标记 --> 构建层次对象 --> 查询获取承载了需要信息的对象 --> 按对象层次输出结果

其中难度比较大的就是解析标记和查询获取对象。解析标记我用过了正则表达式，字符串判断，SgmlReader，最好觉得SgmlReader用起来简单，效率也高。查询获取对象，目前实现的主要方法是以表为单位，按索引数来获得，这一块花的时间也比较少。

新的想法：把HTML拆开读取为string[] 单位为一个HTML标记，用两个数组指针来确定要截取的部分，以个从头开始检索，一个从尾开始检索，这样能很好的解决标记配对的问题。在构造对象层次结构时候也只用数组指针，我想这样应该能提供效率和节约内存。再往后，可以把这个方法改进为流式处理，那么在读取大文件的时候效率就更高了。

如果能有一个GUI的界面来让用户选择需要截取的内容，那么操作就更加方便了，不知道，象DreamWeaver这样的编辑器是怎么样开发的。

posted on 2006-03-06 13:39 format 阅读(5103) 评论(17) 收藏举报

刷新页面返回顶部

format Blog

公告