2015 年 12月 30 日随笔档案 - xxxxxxxx1x2xxxxxxx

增量爬虫,垂直爬虫

摘要： 2.增量型爬虫（Incremental Crawler）：增量型爬虫与批量型爬虫不同，会保持持续不断的抓取，对于抓取到的网页，要定期更新，因为互联网的网页处于不断变化中，新增网页、网页被删除或者网页内容更改都很常见，而增量型爬虫需要及时反映这种变化，所以处于持续不断的抓取过程中，不是在抓取新网页... 阅读全文

posted @ 2015-12-30 19:26 xxxxxxxx1x2xxxxxxx 阅读(396) 评论(0) 推荐(0)

Selenium之利用Excel实现参数化

摘要： Selenium之利用Excel实现参数化说明：我是通过Workbook方式来读取excel文件的,这次以登陆界面为例备注：使用Workbook读取excel文件，前提是excel需要2003版本，其他版本暂时不支持具体步骤：第一步：新建一个excel文件，并且输入数据内容第二步... 阅读全文

posted @ 2015-12-30 16:44 xxxxxxxx1x2xxxxxxx 阅读(199) 评论(0) 推荐(0)

2）JS动态生成HTML元素的爬取

摘要： 2）JS动态生成HTML元素的爬取import java.util.List;import org.openqa.selenium.By;import org.openqa.selenium.WebDriver;import org.openqa.selenium.WebElement;import... 阅读全文

posted @ 2015-12-30 16:43 xxxxxxxx1x2xxxxxxx 阅读(503) 评论(0) 推荐(0)

Java与C/C++有什么区别

摘要： JDK包含JRE,1-08:Helloworld:01-08：classpath配置:运行其它目录下的class文件：classpath一般不加分号，只找classpath下的文件；后面加分号时先找classpath再找当前目录。一般把当前目录也加上：可执行程序用path,class文件用class... 阅读全文

posted @ 2015-12-30 14:34 xxxxxxxx1x2xxxxxxx 阅读(211) 评论(0) 推荐(0)

社会化海量数据采集爬虫框架搭建

摘要：社会化海量数据采集爬虫框架搭建随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎... 阅读全文

posted @ 2015-12-30 10:21 xxxxxxxx1x2xxxxxxx 阅读(217) 评论(0) 推荐(0)

yyyyyyyyyyyyyyyyyyyy

公告