2008 年 9月 7 日随笔档案 - 简单就好

2008年9月7日

摘要：前面两篇讲解了解析Html的思想个核心算法，感谢各位提出了意见。先专门列出一文作为解释：1、ViewStates提到，“<TD 阿道夫骄傲了沙发</TD>”怎么办？这个是可以解析出来的，其中解析后节点名为“td”,而“ 阿道夫骄傲了沙发</TD”解析成了属性。如图：上面的图中，包含了上面提到的例子。回... 阅读全文

posted @ 2008-09-07 21:30 简单就好阅读(331) 评论(0) 推荐(0) 编辑

解析Html生成标签树（一）

摘要：转老田的专栏解析Html成标签树结构以后，我们不但可以很容易取得想要的元素，同时也很容易将Html转换成对应的XML文件。但是由于代码是在公司写的，所以没有粘贴出来的可能性，所以我只能给出大概的代码流程，具体细节描述，相信各位都很容易写出来，并且写的比我好，关键的是算法实现思想。算法的关键如下： 1. Html中每个tag都是都将作为树中的一个节点存在的，每个tag都属于树中的某一层。2. 辅助... 阅读全文

posted @ 2008-09-07 21:29 简单就好阅读(1711) 评论(2) 推荐(0) 编辑

解析Html生成标签树（前言）

摘要：转老田的专栏提示：根据这几天的访问量跟踪，我发现很多访者都没有很好地关注到真正进行算法描述的章节《解析Html生成标签树（一）》，特此进行提示。搜索引擎一个最重要的步骤就是，获得网页的正文内容，我相信每个人看见一篇网页的时候，从视觉上都很容易知道哪个部分是正文内容，哪个部分是版权信息，哪个部分是广告信息。但是要让计算机明白这些，估计要若干年（到时候还不知道人类是否已经变异成4只眼睛，5个耳朵。。... 阅读全文

posted @ 2008-09-07 21:27 简单就好阅读(1457) 评论(1) 推荐(0) 编辑

公告