随笔档案「2012年7月22日」：分析并获取网页数据的一些收获 ... - 永动机

2012年7月22日

摘要：最近在对网页进行结构分析，尝试获取网页上的数据，写了一些小工具。具体的思想很简单，就是先获取网页的URL，接着发送请求给服务器，得到返回结果document, 然后分析网页的节点结构获取数据。在做这些事情的时候遇到了一些问题，比如网页本身的标签闭合错误，或标签内的onclick="xxxx("....")"这样的写法，都导致最后获取的数据出现问题，xpath找不到需要的节点。除了这些还发现页面上的空格，也会被作为childnode,从而导致childnodes的个数和预想的不一样。阅读全文

posted @ 2012-07-22 23:00 永动机阅读(208) 评论(0) 推荐(0)

公告