摘要:前面两篇讲解了解析Html的思想个核心算法,感谢各位提出了意见。先专门列出一文作为解释:1、ViewStates提到,“<TD 阿道夫骄傲了沙发</TD>”怎么办?这个是可以解析出来的,其中解析后节点名为“td”,而“ 阿道夫骄傲了沙发</TD”解析成了属性。如图:上面的图中,包含了上面提到的例子。 回... 阅读全文
posted @ 2008-09-07 21:30 简单就好 阅读 (215) 评论 (0) 编辑
摘要:转 老田的专栏解析Html成标签树结构以后,我们不但可以很容易取得想要的元素,同时也很容易将Html转换成对应的XML文件。但是由于代码是在公司写的,所以没有粘贴出来的可能性,所以我只能给出大概的代码流程,具体细节描述,相信各位都很容易写出来,并且写的比我好,关键的是算法实现思想。算法的关键如下: 1. Html中每个tag都是都将作为树中的一个节点存在的,每个tag都属于树中的某一层。2. 辅助... 阅读全文
posted @ 2008-09-07 21:29 简单就好 阅读 (985) 评论 (2) 编辑
摘要:转 老田的专栏提示:根据这几天的访问量跟踪,我发现很多访者都没有很好地关注到真正进行算法描述的章节《解析Html生成标签树(一)》,特此进行提示。搜索引擎一个最重要的步骤就是,获得网页的正文内容,我相信每个人看见一篇网页的时候,从视觉上都很容易知道哪个部分是正文内容,哪个部分是版权信息,哪个部分是广告信息。但是要让计算机明白这些,估计要若干年(到时候还不知道人类是否已经变异成4只眼睛,5个耳朵。。... 阅读全文
posted @ 2008-09-07 21:27 简单就好 阅读 (1004) 评论 (1) 编辑