上一页 1 2 3 4 5 6 7 8 9 ··· 29 下一页
摘要: openKM想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?不知道openkm能不能做到。OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代... 阅读全文
posted @ 2015-04-30 13:22 skyme 阅读(3246) 评论(0) 推荐(0) 编辑
摘要: 分类分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地... 阅读全文
posted @ 2015-04-20 10:35 skyme 阅读(29242) 评论(5) 推荐(8) 编辑
摘要: C4.5简介C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。由于I... 阅读全文
posted @ 2015-03-31 16:22 skyme 阅读(2273) 评论(1) 推荐(0) 编辑
摘要: 讨论内容昨天的架构基本确定成如下图所示:针对此架构,大家分别提了不同的看法:【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的... 阅读全文
posted @ 2015-03-27 14:35 skyme 阅读(2190) 评论(0) 推荐(0) 编辑
摘要: SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功... 阅读全文
posted @ 2015-03-26 19:13 skyme 阅读(15843) 评论(1) 推荐(4) 编辑
摘要: 文档分享流程今天在群里与大家讨论,想一个比较合理的分享流程。我想看到流程应该是挺清楚了,就不再多加文字方面的解释了!有想参与的可以一起进来讨论群号 194338168 想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人。群会定期往出清人! (项目会开源出来) 阅读全文
posted @ 2015-03-25 17:51 skyme 阅读(1271) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫架构经过新一轮的投票,项目的范围已经基本确定。大家决定 全力以付,集中攻克“分布式爬虫”。分布式爬虫架构1使用队列,即生产者,消费都模式。由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取。分布式爬虫架构2类似于webmagic,webmagic... 阅读全文
posted @ 2015-03-24 11:34 skyme 阅读(8853) 评论(1) 推荐(1) 编辑
摘要: 项目背景因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是:http://www.cnblogs.com/skyme/archive/2012/02/07/... 阅读全文
posted @ 2015-03-23 10:53 skyme 阅读(2602) 评论(0) 推荐(1) 编辑
摘要: Spark简介Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用... 阅读全文
posted @ 2015-03-14 23:48 skyme 阅读(17963) 评论(0) 推荐(2) 编辑
摘要: 什么是RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Memcached和... 阅读全文
posted @ 2015-03-08 11:31 skyme 阅读(3143) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 29 下一页