yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2015年8月11日 #

摘要: delete 阅读全文
posted @ 2015-08-11 23:13 xxxxxxxx1x2xxxxxxx 阅读(118) 评论(0) 推荐(0)

摘要: 下载网站所有 -r, --recursive specify recursive download. -nc, --no-clobber skip downloads that would download to existing files. -np, --no-parent don’t asce... 阅读全文
posted @ 2015-08-11 16:32 xxxxxxxx1x2xxxxxxx 阅读(976) 评论(0) 推荐(0)

摘要: 数据库相关110数据库服务器233NoSQL数据库18MySQL衍生版6开源XML数据库311数据库管理工具117数据库调整和优化274数据库驱动程序41数据库建模 阅读全文
posted @ 2015-08-11 02:58 xxxxxxxx1x2xxxxxxx 阅读(113) 评论(0) 推荐(0)

摘要: 系统监控95日志分析和统计9性能优化84数据备份404网管工具53无线网络工具59漏洞检测扫描和评估43SDN/OpenFlow203安全相关 阅读全文
posted @ 2015-08-11 02:57 xxxxxxxx1x2xxxxxxx 阅读(163) 评论(0) 推荐(0)

摘要: 硬件驱动/工具25Linux内核101桌面环境40开源字体58嵌入式操作系统33输入法110开源硬件57开源图书5开源家居17物联网87开源货币/比特币32NASA 开源项目10无线路由固件12开源汽车/车载系统 阅读全文
posted @ 2015-08-11 02:57 xxxxxxxx1x2xxxxxxx 阅读(134) 评论(0) 推荐(0)

摘要: 休闲游戏123网络游戏88单机游戏201游戏模拟器/工具/引擎 阅读全文
posted @ 2015-08-11 02:56 xxxxxxxx1x2xxxxxxx 阅读(142) 评论(0) 推荐(0)

摘要: Eclipse插件2551FireFox插件14IE插件19Prototype扩展220Chrome插件/扩展72WordPress插件33NetBeans插件12IDEA插件25Xcode 插件21Visual Studio 插件 阅读全文
posted @ 2015-08-11 02:55 xxxxxxxx1x2xxxxxxx 阅读(191) 评论(0) 推荐(0)

摘要: iOS代码库34Activity54下拉刷新(pull-to-refresh)143菜单 (Menu)20位置信息(GPS/Location)24iOS 表单74提醒 (Notification)14iOS 数据库171按钮(Button)293列表(Table)343图像(Image)166滚动视... 阅读全文
posted @ 2015-08-11 02:54 xxxxxxxx1x2xxxxxxx 阅读(249) 评论(0) 推荐(0)

摘要: 开发工具29反编译工具26持续集成系统19SQL注入工具139Git开源工具138Java开发工具43.NET开发工具85PHP开发工具96C/C++开发工具70Ruby/Rails开发工具101Python开发工具27Perl开发工具73BUG跟踪管理168项目构建202单元测试工具323测试工具... 阅读全文
posted @ 2015-08-11 02:53 xxxxxxxx1x2xxxxxxx 阅读(119) 评论(0) 推荐(0)

摘要: 应用工具22思维导图软件9博客客户端15加密/解密/破解120浏览器78邮件工具327文档/文本编辑31杀毒软件177终端/远程登录195IM/聊天/语音工具74下载工具64文件传输工具101P2P/BT282图形和图像工具29图标制作工具557多媒体工具107压缩、解压缩213个人助理软件100网... 阅读全文
posted @ 2015-08-11 02:52 xxxxxxxx1x2xxxxxxx 阅读(200) 评论(0) 推荐(0)

摘要: Another Simple Crawler 又一个网络爬虫,可以支持代理服务器的FQ爬取。1.数据存在mysql当中。2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库名和用户名和密码3.然后访问http://127.0.0.1/fetch/install 链接... 阅读全文
posted @ 2015-08-11 02:45 xxxxxxxx1x2xxxxxxx 阅读(355) 评论(0) 推荐(0)

摘要: WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。WebFetch 要达到的目标:没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api接口能在Android设备上稳定运行小巧灵活可以方便集成的网页抓取组件使用文档WebFetch的使用非常简单,让... 阅读全文
posted @ 2015-08-11 02:44 xxxxxxxx1x2xxxxxxx 阅读(227) 评论(0) 推荐(0)

摘要: JAVA平台上的网络爬虫脚本语言 CrawlScript网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一 个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的... 阅读全文
posted @ 2015-08-11 02:43 xxxxxxxx1x2xxxxxxx 阅读(235) 评论(0) 推荐(0)

摘要: commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。comm... 阅读全文
posted @ 2015-08-11 02:43 xxxxxxxx1x2xxxxxxx 阅读(258) 评论(0) 推荐(0)

摘要: guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义c... 阅读全文
posted @ 2015-08-11 02:42 xxxxxxxx1x2xxxxxxx 阅读(194) 评论(0) 推荐(0)

摘要: Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spide... 阅读全文
posted @ 2015-08-11 02:41 xxxxxxxx1x2xxxxxxx 阅读(165) 评论(0) 推荐(0)

摘要: 丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从 网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站 架构说明 系统是基于 Swing+Spring-3.2.4+Mybatis-3.1.1+C3p0... 阅读全文
posted @ 2015-08-11 02:40 xxxxxxxx1x2xxxxxxx 阅读(256) 评论(0) 推荐(0)

摘要: WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。http://sourceforge.net/projects/weblech/files/WebLech/weblech-... 阅读全文
posted @ 2015-08-11 02:39 xxxxxxxx1x2xxxxxxx 阅读(357) 评论(0) 推荐(0)

摘要: spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。其中配置文件格式为:?123456789101112131415161718192021222324252627282930313233343536373839404142434445http:/... 阅读全文
posted @ 2015-08-11 02:38 xxxxxxxx1x2xxxxxxx 阅读(367) 评论(0) 推荐(0)

摘要: HttpComponents 也就是以前的httpclient项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包,并且它支持 HTTP 协议最新的版本和建议。不过现在的 HttpComponents 包含多个子项目,有:HttpComponents CoreH... 阅读全文
posted @ 2015-08-11 02:36 xxxxxxxx1x2xxxxxxx 阅读(175) 评论(0) 推荐(0)

摘要: Spiderman - 又一个Java网络蜘蛛/爬虫Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。主要特点* 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线... 阅读全文
posted @ 2015-08-11 02:32 xxxxxxxx1x2xxxxxxx 阅读(536) 评论(0) 推荐(0)

摘要: JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下:jspider [URL] [ConfigName]URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。JSpider 的行为是由配置文件具体配置的,比如采用什么... 阅读全文
posted @ 2015-08-11 02:31 xxxxxxxx1x2xxxxxxx 阅读(297) 评论(0) 推荐(0)

摘要: JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector 致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。 阅读全文
posted @ 2015-08-11 02:29 xxxxxxxx1x2xxxxxxx 阅读(643) 评论(1) 推荐(0)

摘要: Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开... 阅读全文
posted @ 2015-08-11 02:28 xxxxxxxx1x2xxxxxxx 阅读(310) 评论(0) 推荐(0)

摘要: 主要是配置larbin.conf文件和options.h注意:更改前者可以直接运行,如果更改了第二个就要重新make了!!! 如果你英文够好的话就可以直接看了,都有详细的解释。不行的话就看翻译吧http://blog.chinaunix.net/uid-26548237-id-3391533.htm 阅读全文
posted @ 2015-08-11 02:07 xxxxxxxx1x2xxxxxxx 阅读(532) 评论(0) 推荐(0)

摘要: methanol模块化的可定制的网页爬虫软件,主要的优点是速度快。下载:http://sourceforge.net/projects/methabot/?source=typ_redirectREADME安装SpiderMonkeyhttps://developer.mozilla.org/en-... 阅读全文
posted @ 2015-08-11 02:06 xxxxxxxx1x2xxxxxxx 阅读(142) 评论(0) 推荐(0)