解析Html生成标签树（前言）

搜索引擎一个最重要的步骤就是，获得网页的正文内容，我相信每个人看见一篇网页的时候，从视觉上都很容易知道哪个部分是正文内容，哪个部分是版权信息，哪个部分是广告信息。但是要让计算机明白这些，估计要若干年（到时候还不知道人类是否已经变异成4只眼睛，5个耳朵。。。）之后。在网络上大量存在一些关于网页正文抽取的理论性文章，最著名的应该数介绍北大天网的《搜索引擎原理技术与系统》一书中所介绍的网页净化技术了，中心思想大概就是，首先将Html源文件解析成一棵以Html标签为节点的树（为了后面的描述方便，我们称其为“Html树”）