上一页 1 2 3 4 5 6 7 8 ··· 18 下一页
摘要: 什么是数据仓库 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据 阅读全文
posted @ 2013-01-10 11:55 beanmoon 阅读(1737) 评论(0) 推荐(0)
摘要: Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外,... 阅读全文
posted @ 2013-01-05 21:51 beanmoon 阅读(387) 评论(0) 推荐(0)
摘要: 由于hadoop主要是部署和应用在linux环境中的,但是目前鄙人自知能力有限,还无法完全把工作环境转移到linux中去(当然还有点小私心啦,windows下那么多好用的程序到linux下用不了还真有点心疼——比如说快播,O(∩_∩)O~),于是便想着用eclipse来远程连接hadoop进行开发,摸索了一番,下面是其步骤: 1. 首先把hadoop-eclipse-plugin-1.0.4.jar(具体版本视你的hadoop版本而定)放到eclipse安装目录的plugins文件夹中,如果重新打开eclipse后看到有如下视图,则说明你的hadoop插件已经安装成功了: 其中的“h... 阅读全文
posted @ 2013-01-05 14:11 beanmoon 阅读(12760) 评论(6) 推荐(3)
摘要: 1. BitTorrent协议1.1 简介 BitTorrent协议(简称BT,俗称比特洪流、BT下载)是一个网络文件传输协议,它能够实现点对点文件分享的技术。比起其他点对点的协议,它具有多点对多点的特性,该特性简而言之即为:下载一文件的人越多,且下载后,并继续维持分享(上传)的状态就可以成为可让其他人下载的种子文件(.torrent),该文件即下载速度越快。该技术由美国的程序员布莱姆·科亨于2001年4月时发布,并于2001年7月2日时首次正式应用。 普通的HTTP/FTP下载使用TCP/IP协议,BitTorrent协议是架构于TCP/IP协议之上的一个P2P文件传输协议,处于T 阅读全文
posted @ 2013-01-02 20:14 beanmoon 阅读(621) 评论(0) 推荐(0)
摘要: 引言:最近“数据库引擎”这个字眼一直出现,学了这么久的数据库竟然不知道“数据库引擎”为何物,哎~~google了一下,顺便牵出一些其他东西,整理如下。 “数据库引擎就是驱动各种数据库的程序,它负责处理数据库相关工作的整个核心部份。同样的,数据库应用项目的操作指令,均会通过数据库引擎的处理作用到数据库上。” 注意:“数据库引擎”一般是针对开源DBMS,如MySQL来说的,在Oracle上也是有存储引擎的,但Oracle官方从来都不这么提,只说存储架构。按功能上来看,InnoDB在设计之初参考了Oracle的设计(如表空间,extent,块等)。 以下是来自维基百科的解释:databas... 阅读全文
posted @ 2012-12-31 16:32 beanmoon 阅读(419) 评论(0) 推荐(0)
摘要: 《hadoop:the definitive guide 3th》中的例子默认提供了一种编译和构建jar包方法——maven,如果没有maven你会发现编译测试随书的源码会非常的麻烦(至少在命令行下),当然你也可以使用eclipse导入随书的源码再自己一个个的添加依赖性jar包(恐怕也不太容易)。不过还好有非常好的开源的软件项目管理工具来帮助我们做这些无关于程序本身设计与架构的琐碎的工作,那就是maven! 如果你对maven还不太了解,可以参看这里。 《hadoop:the definitive guide 3th》的源码包可以从github中下载到,如下图所示: 下载完后解压... 阅读全文
posted @ 2012-12-27 13:24 beanmoon 阅读(2978) 评论(0) 推荐(0)
摘要: 注解(Annotation)简介Annotation(注解)是JDK5.0 及以后版本引入的一个特性。注解是java 的一个新的类型(与接口很相似),它与类、接口、枚举是在同一个层次,它们都称作为java 的一个类型(TYPE)。它可以声明在包、类、字段、方法、局部变量、方法参数等的前面,用来对这些元素进行说明,注释。它的作用非常的多,例如:进行编译检查、生成说明文档、代码分析等。JDK提供的几个基本注解a. @SuppressWarnings该注解的作用是阻止编译器发出某些警告信息。它可以有以下参数:deprecation:过时的类或方法警告。unchecked:执行了未检查的转换时警告。f 阅读全文
posted @ 2012-12-25 11:51 beanmoon 阅读(1408) 评论(0) 推荐(1)
摘要: 以前我们介绍的访问HDFS的方法都是单线程的,Hadoop中有一个工具可以让我们并行的拷贝大量数据文件,这个工具就是distcp。 distcp的典型应用就是在两个HDFS集群中拷贝文件,如果两个集群使用的Hadoop版本相同,可以使用hdfs标识符: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 这条命令会把第一个集群(namenode为命令中指定的namenode1)中的/foo目录拷贝到第二个集群中的/bar目录下,于是在第二个集群中就得到了/bar/foo这样的目录结构,我们也可以指定多个拷贝源,但拷贝... 阅读全文
posted @ 2012-12-22 22:35 beanmoon 阅读(20677) 评论(0) 推荐(2)
摘要: top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。 top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombieCpu(s): 0.3% us, 1.0% sy, 0.0% ni, 98.7% id, 0.0% wa, 0.0% hi, 0.0% siMem: 191272k total, 173656k used, 阅读全文
posted @ 2012-12-22 22:32 beanmoon 阅读(391) 评论(0) 推荐(0)
摘要: 如题,下面是一个用linux shell脚本编写的通讯录,已实现了“增、删、查”功能,“改”功能比较复杂,待续~~ 1 #!/dev/bash 2 3 # Name of address book 4 BOOK="address-book.txt" 5 6 exit=0 7 8 add() { 9 # Ask the user for a name and assign to a variable10 echo -n "Name of person: " 11 read name12 13 # Ask the user for a phone numb. 阅读全文
posted @ 2012-12-18 14:51 beanmoon 阅读(1405) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 18 下一页