摘要: 整个抓取使用了 xpath、正则表达式、消息中间件、多线程调度框架(参考)。xpath是一种结构化网页元素选择器,支持列表和单节点数据获取,他的好处可以支持规整网页数据抓取。我们使用的是google插件XPath Helper,这个玩意可以支持在网页点击元素生成xpath,就省去了自己去查找xpath的功夫,也便于未来做到所点即所得的功能。写抓图脚本的时候常常因为xPath而头疼。有了xPathHelper-Chrome浏览器的一个插件,就能轻松获取HTML元素的xPath.只要按住Ctrl+Shift+X就会出来相应窗口,将鼠标移至想要的元素再按Shift就会出来结果了。非常棒。 阅读全文
posted @ 2013-07-26 09:59 wx_xfy6369 阅读(9331) 评论(0) 推荐(1)