摘要: 最近在对网页进行结构分析,尝试获取网页上的数据,写了一些小工具。具体的思想很简单,就是先获取网页的URL,接着发送请求给服务器,得到返回结果document, 然后分析网页的节点结构获取数据。在做这些事情的时候遇到了一些问题,比如网页本身的标签闭合错误,或标签内的onclick="xxxx("....")"这样的写法,都导致最后获取的数据出现问题,xpath找不到需要的节点。除了这些还发现页面上的空格,也会被作为childnode,从而导致childnodes的个数和预想的不一样。 阅读全文
posted @ 2012-07-22 23:00 永动机 阅读(208) 评论(0) 推荐(0)