摘要:这个解析器只是作为个人爱好去研究,陆陆续续的投入精力,持续了很长时间,这期间发生了很多的事情。我在上海落脚很长时间后才又继续开发,并把项目命名为Wittiness。 项目的目的:构建一个Web信息挖掘机,能够高效方便的从网页中截取到需要的信息。 构建思路是:解析HTML标记 --> 构建层次对象 --> 查询获取承载了需要信息的对象 --> 按对象层次输出结果 其中难度比较大的就...
阅读全文
随笔分类 - HTML解析器开发手记
很偶然的想法,就做起来了,打算做一个HTML的解析器。
摘要:今天已经是有做HTML解析器的想法好几天了,一开始是一个朋友要我帮忙处理下从网页上的表格中获取信息,然后分项保存到数据库中,实现数据本地化。一开始就打算好好做一个,以后也可以通用,经过一个多星期的资料收集和试验,现在分析器的雏形已经出来了。 在一开始的时候打算直接用.NET中字符处理的方法来做,但过于复杂和麻烦,而且效率不高;然后有想到把HTML当做XML用XML相...
阅读全文

浙公网安备 33010602011771号