yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2015年12月30日 #

摘要: 2.增量型爬虫(Incremental Crawler):增量型爬虫与批量型爬虫不同,会保持持续不断的抓 取,对于抓取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变 化,所以处于持续不断的抓取过程中,不是在抓取新网页... 阅读全文
posted @ 2015-12-30 19:26 xxxxxxxx1x2xxxxxxx 阅读(396) 评论(0) 推荐(0)

摘要: Selenium之利用Excel实现参数化 说明:我是通过Workbook方式来读取excel文件的,这次以登陆界面为例 备注:使用Workbook读取excel文件,前提是excel需要2003版本,其他版本暂时不支持 具体步骤: 第一步:新建一个excel文件,并且输入数据内容 第二步... 阅读全文
posted @ 2015-12-30 16:44 xxxxxxxx1x2xxxxxxx 阅读(198) 评论(0) 推荐(0)

摘要: 2)JS动态生成HTML元素的爬取import java.util.List;import org.openqa.selenium.By;import org.openqa.selenium.WebDriver;import org.openqa.selenium.WebElement;import... 阅读全文
posted @ 2015-12-30 16:43 xxxxxxxx1x2xxxxxxx 阅读(502) 评论(0) 推荐(0)

摘要: JDK包含JRE,1-08:Helloworld:01-08:classpath配置:运行其它目录下的class文件:classpath一般不加分号,只找classpath下的文件;后面加分号时先找classpath再找当前目录。一般把当前目录也加上:可执行程序用path,class文件用class... 阅读全文
posted @ 2015-12-30 14:34 xxxxxxxx1x2xxxxxxx 阅读(211) 评论(0) 推荐(0)

摘要: 社会化海量数据采集爬虫框架搭建随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎... 阅读全文
posted @ 2015-12-30 10:21 xxxxxxxx1x2xxxxxxx 阅读(216) 评论(0) 推荐(0)