解析Html生成标签树(一)
本文介绍了如果将Html文件解析成以Html标签(tag)为节点的标签树,这在搜索引擎中是非常重要的一个环节,虽然目前已经存在了一些开源的解析包或者软件,但是都是使用正则表达式的方式来处理,你可能也知道,正则表达式是非常难于理解掌握的。并且通过正则表达式的方式,我们在对Html进行解析(特别是在垂直搜索引擎中)是很容易受制于源网站的,源网站的页面Html的任何变动都可能直接导致我们的抓取正则的修改。所以本文给出了一个解析Html为标签树的方法,这样通过遍历树节点,我们很容易拿到需要的信息。同时在网页正文的获取方面,通过标签树也变得很简单。
浙公网安备 33010602011771号