分析并获取网页数据的一些收获
最近在对网页进行结构分析,尝试获取网页上的数据,写了一些小工具。具体的思想很简单,就是先获取网页的URL,接着发送请求给服务器,得到返回结果document, 然后分析网页的节点结构获取数据。在做这些事情的时候遇到了一些问题,比如网页本身的标签闭合错误,或标签内的onclick="xxxx("....")"这样的写法,都导致最后获取的数据出现问题,xpath找不到需要的节点。除了这些还发现页面上的空格,也会被作为childnode,从而导致childnodes的个数和预想的不一样。
作者:KeepMoving
出处:http://www.cnblogs.com/KeepMovingblog/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
出处:http://www.cnblogs.com/KeepMovingblog/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
浙公网安备 33010602011771号