代码改变世界

[置顶]Nutch搜索引擎系列(目录)

2014-03-21 13:23 by 虾皮, 5983 阅读, 收藏, 编辑
摘要: 下面是Nutch搜索系列目录,希望对研究Nutch的同学有所帮助。 目录安排: 1)Nutch搜索引擎(第1期)_ Nutch简介及安装[下载] 2)Nutch搜索引擎(第2期)_ Solr简介及安装[下载] 3)Nutch搜索引擎(第3期)_ Nutch简单应用 4)Nutch搜索引...阅读全文

[置顶]Hadoop集群系列(目录)

2012-04-08 19:15 by 虾皮, 60113 阅读, 收藏, 编辑
摘要: 目录安排: 1)Hadoop集群_第1期_CentOS安装配置_V1.0 2)Hadoop集群_第2期_机器信息分布表_V1.1 3)Hadoop集群_第3期_VSFTP安装配置_V1.0 4)Hadoop集群_第4期_SecureCRT使用_V1.0 5)Hadoop集群_第5期_Hadoop安装阅读全文

Nutch搜索引擎(第4期)_ Eclipse开发配置

2014-04-28 09:12 by 虾皮, 9909 阅读, 收藏, 编辑
正文内容加载中...

Nutch搜索引擎(第3期)_ Nutch简单应用

2014-04-14 11:03 by 虾皮, 7728 阅读, 收藏, 编辑
摘要: 1、Nutch命令详解Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。要看Nutch的命令说明,可执行"Nutch"命令。下面是单个命令的说明:crawlcrawl是"org.apache.nutch.crawl.Crawl"的别称,...阅读全文

Nutch搜索引擎(第2期)_ Solr简介及安装

2014-03-26 12:08 by 虾皮, 5977 阅读, 收藏, 编辑
摘要: 1、Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。 Solr最初由CNET Networks开发,2006 年初,Apache Software Foundation 在Lucene顶级项目的支持下得到了Solr。Solr于2007年1月酝酿成熟,在整个项目孵化期间,Solr稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene(Apach..阅读全文

Nutch搜索引擎系列(目录)

2014-03-21 13:23 by 虾皮, 5983 阅读, 收藏, 编辑
摘要: 下面是Nutch搜索系列目录,希望对研究Nutch的同学有所帮助。 目录安排: 1)Nutch搜索引擎(第1期)_ Nutch简介及安装[下载] 2)Nutch搜索引擎(第2期)_ Solr简介及安装[下载] 3)Nutch搜索引擎(第3期)_ Nutch简单应用 4)Nutch搜索引...阅读全文

Nutch搜索引擎(第1期)_ Nutch简介及安装

2014-03-21 12:19 by 虾皮, 30066 阅读, 收藏, 编辑
摘要: 1、Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构。 Nutch目前最新的版本为version1.4。1.1 Nutch的目标 Nutch 致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十...阅读全文

暑假期间学习不错的网网页

2012-07-13 21:42 by 虾皮, 1125 阅读, 收藏, 编辑
摘要: 1、[NHibernate] Guid 作主键速度超慢的背后地址:http://www.cnblogs.com/1-2-3/archive/2011/07/12/nhibernate-guid-key-performance.html阅读全文

Hadoop集群(第10期副刊)_常用MySQL数据库命令

2012-06-18 16:13 by 虾皮, 8899 阅读, 收藏, 编辑
摘要: 1、系统管理 1.1 连接MySQL 格式: mysql -h主机地址 -u用户名 -p用户密码 举例: 例1:连接到本机上的MySQL。 首先在打开DOS窗口,然后进入目录 mysqlbin,再键入命令"mysql –u root –p",回车后提示你输密码,如果刚安装好MySQL,超级用户"ro阅读全文

Hadoop集群(第10期)_MySQL关系数据库

2012-06-12 13:58 by 虾皮, 22224 阅读, 收藏, 编辑
摘要: 1、MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装 第一步:双击"msi"安装阅读全文

Hadoop集群(第9期)_MapReduce初级案例

2012-06-04 13:22 by 虾皮, 102180 阅读, 收藏, 编辑
摘要: 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 阅读全文

Hadoop集群(第8期)_HDFS初探之旅

2012-05-28 09:26 by 虾皮, 54849 阅读, 收藏, 编辑
摘要: 1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征阅读全文