07 2017 档案

HtmlUnit爬取Ajax动态生成的页面内容
摘要:HtmlUnit说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正因为其没有界面,因此执行的速度还是可以滴。 HtmlUnit提供了一系列的API,这些API可以干的功能比较多,如表单的填充,表单的提交,模仿点击链接,由于内置了Rhinojs引擎,因此可以执行JavaScript 之 阅读全文

posted @ 2017-07-04 12:45 WOTGL 阅读(718) 评论(0) 推荐(0)

爬虫中动态的POST参数
摘要:爬虫的过程中,有的网站提交POST数据时候每次都会带上不懂POST参数,要想爬到数据首先的知道怎么构造这些动态的参数。 1、分析提交POST数据的最原始网页,分析原始网页的源代码,查找里面是否包含有你要的POST参数,通常这种标签是隐藏的。 网站的这种保护措施算比较初级简单,你每次访问原始网页,服务 阅读全文

posted @ 2017-07-03 16:41 WOTGL 阅读(667) 评论(0) 推荐(0)

导航