随笔分类 - Hadoop集群
摘要:布隆过滤器: 1.原理? 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB,这个大小不能调整太多。 如果你要查找一个短行,只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。例如,如果你的行占
阅读全文
摘要:1.数据块:适合大文件的存储 好处:可以存储比单一磁盘大的文件、简化了存储管理(将管理块和管理文件的功能区分开)、方便容错(数据块进行) 为什么块的大小比磁盘块大的多?减少管理数据块的开销、同时在对文件进行读写时较少寻址开销、可以减少名字节点管理文件与数据块的关系的开销 2.名字节点与第二名字节点(
阅读全文
摘要:不错的文章 原文地址:(转载)java中的Class类与Class对象作者:albert1017 本文用作笔记之用,引用的网上资料: http://www.blogjava.net/formatmyself/articles/21291.html写得比较全面 http://www.open-open
阅读全文
摘要:hadoop源代码分析(4)-org.apache.hadoop.util包-GenericOptionsParser类【原创】 一 准备 hadoop版本:1.0.3,GenericOptionsParser所在的包:org.apache.hadoop.util 学习方法:理解GenericOpt
阅读全文
摘要:前记(http://blog.jobbole.com/91913/) 公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦
阅读全文
摘要:Hadoop 和 MRv1 简单介绍 Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动)。图 1 演示了一个 Hadoop 集群的高级组件。 图 1. Hadoop 集群架构的简单演示 一个 Hado
阅读全文
摘要:简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。 读者通过本文
阅读全文
摘要:通过rpm包安装、配置及卸载mysql的详细过程.以MySQL-server-4.0.14-0.i386.rpm为例,放在/usr/src目录下cd /usr/srcrpm -ivh MySQL-server-4.0.14-0.i386.rpm安装完成后在/usr/share/mysql目录中会有一...
阅读全文
摘要:Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github....
阅读全文
摘要:经常会有这样的事情发生:在主节点上start-all.sh后,子节点有TaskTracker进程,而没有DataNode进程。环境:1NameNode 2DataNode三台机器,Hadoop为1.2.1解决办法:1.先停止Hadoop,bin/stop-all.sh2.三台机器都把hadoop1....
阅读全文
摘要:1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。 图3-1 单词-文档矩阵 从纵向即文档这个维度来看,每列代表文档包含了哪些单词,比如...
阅读全文
摘要:在windows中运行eclipse时报错Permission denied: user=xxj, access=WRITE, inode="user":hadoop:supergroup:rwxr-xr-x,是因为运行时的用户为为administrator,只需要在eclipse中将用户改为Had...
阅读全文
摘要:MR程序的几种提交运行模式本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hd...
阅读全文
摘要:1.配置 namenode的hdfs-site.xml是必须将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS、LISTFILESTATUS等需要列出文件、文件夹状态的命令,因为这些信息都是由namenode来保存的。 在namenod...
阅读全文
摘要:[hadoop@weekend110 ~]$ ssh-keygen -t rsa 用来生产密钥对Generating public/private rsa key pair.Enter file in which to save the key (/home/hadoop/.ssh/id_rs...
阅读全文
摘要:ssh那些都已经搞了,跑一个书上的例子出现了Connection Refused异常,如下:12/04/09 01:00:54 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0...
阅读全文

浙公网安备 33010602011771号