yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 274 275 276 277 278 279 280 281 282 ··· 367 下一页

2015年8月11日 #

摘要: Another Simple Crawler 又一个网络爬虫,可以支持代理服务器的翻墙爬取。1.数据存在mysql当中。2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库名和用户名和密码3.然后访问http://127.0.0.1/fetch/install 链接... 阅读全文
posted @ 2015-08-11 02:45 xxxxxxxx1x2xxxxxxx 阅读(356) 评论(0) 推荐(0)

摘要: WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。WebFetch 要达到的目标:没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api接口能在Android设备上稳定运行小巧灵活可以方便集成的网页抓取组件使用文档WebFetch的使用非常简单,让... 阅读全文
posted @ 2015-08-11 02:44 xxxxxxxx1x2xxxxxxx 阅读(228) 评论(0) 推荐(0)

摘要: JAVA平台上的网络爬虫脚本语言 CrawlScript网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一 个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的... 阅读全文
posted @ 2015-08-11 02:43 xxxxxxxx1x2xxxxxxx 阅读(236) 评论(0) 推荐(0)

摘要: commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。comm... 阅读全文
posted @ 2015-08-11 02:43 xxxxxxxx1x2xxxxxxx 阅读(258) 评论(0) 推荐(0)

摘要: guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义c... 阅读全文
posted @ 2015-08-11 02:42 xxxxxxxx1x2xxxxxxx 阅读(195) 评论(0) 推荐(0)

摘要: Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spide... 阅读全文
posted @ 2015-08-11 02:41 xxxxxxxx1x2xxxxxxx 阅读(166) 评论(0) 推荐(0)

摘要: 丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从 网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站 架构说明 系统是基于 Swing+Spring-3.2.4+Mybatis-3.1.1+C3p0... 阅读全文
posted @ 2015-08-11 02:40 xxxxxxxx1x2xxxxxxx 阅读(256) 评论(0) 推荐(0)

摘要: WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。http://sourceforge.net/projects/weblech/files/WebLech/weblech-... 阅读全文
posted @ 2015-08-11 02:39 xxxxxxxx1x2xxxxxxx 阅读(357) 评论(0) 推荐(0)

摘要: spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。其中配置文件格式为:?123456789101112131415161718192021222324252627282930313233343536373839404142434445http:/... 阅读全文
posted @ 2015-08-11 02:38 xxxxxxxx1x2xxxxxxx 阅读(367) 评论(0) 推荐(0)

摘要: HttpComponents 也就是以前的httpclient项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包,并且它支持 HTTP 协议最新的版本和建议。不过现在的 HttpComponents 包含多个子项目,有:HttpComponents CoreH... 阅读全文
posted @ 2015-08-11 02:36 xxxxxxxx1x2xxxxxxx 阅读(175) 评论(0) 推荐(0)

上一页 1 ··· 274 275 276 277 278 279 280 281 282 ··· 367 下一页