随笔分类 -  实践Hadoop

回收站参数介绍
摘要:转自http://f.dataguru.cn/thread-18863-1-232.html在core-default.xml中fs.trash.interval0Number of minutes between trash checkpoints.If zero, the trash feature is disabled.也就是如果在core-site.xml中设置了 fs.trash.interval ,则会启用trash功能fs.trash.interval60Number of minutes between trash checkpoints.If zero, the trash 阅读全文
posted @ 2013-07-28 09:26 南宫星海 阅读(186) 评论(0) 推荐(0)
Hadoop常见问题
摘要:Hadoop使用常见问题以及解决方法(1) - [分布式]Hadoop使用常见问题以及解决方法Hadoop,问题,解决1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.confvi /etc/security/limits.conf加上:* soft nofile 102400* hard n. 阅读全文
posted @ 2013-07-27 17:30 南宫星海 阅读(241) 评论(0) 推荐(0)
MapReduce的矩阵相乘
摘要:一、单个mapreduce的实现转自:http://blog.sina.com.cn/s/blog_62186b460101ai1x.html王斌_ICTIR老师的《大数据:互联网大规模数据挖掘与分布式处理》,下面是对第二章提到的的单轮计算矩阵乘法进行的学习实现过程。矩阵的乘法只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有定义。一般单指矩阵乘积时,指的便是一般矩阵乘积。若A为i×r矩阵,B为r×j矩阵,则他们的乘积AB(有时记做A·B)会是一个i×j矩阵。其乘积矩阵的元素如下面式子得出:书中提到的对矩阵乘法的MapReduc 阅读全文
posted @ 2013-07-05 11:07 南宫星海 阅读(847) 评论(0) 推荐(0)
centos上装eclipse步骤
摘要:1.去官网下个eclipse for linux的地址:http://www.eclipse.org/downloads/ Eclipse IDE for Java EE Developers java的就下载这个 ,注意你的系统是几位的就下对应的几位可以用下面命令来看系统位数# uname -ax86_64则说明你是64位内核, 跑的是64位的系统.i386, i686说明你是32位的内核, 跑的是32位的系统2.下载完后解压tar -zxvf eclipse-jee-indigo-SR2-linux-gtk.tar.gz3.解压出来的移动到你想放的目录mv /home/zzsymyos/下 阅读全文
posted @ 2013-07-05 10:10 南宫星海 阅读(300) 评论(0) 推荐(0)
Hadoop API使用
摘要:转自 http://www.cnblogs.com/dlutxm/archive/2010/10/16/1852929.htmlHadoop API被分成(divide into)如下几种主要的包(package)org.apache.hadoop.conf 定义了系统参数的配置文件处理API。org.apache.hadoop.fs 定义了抽象的文件系统API。org.apache.hadoop.dfs Hadoop分布式文件系统(HDFS)模块的实现。org.apache.hadoop.io 定义了通用的I/O API,用于针对网络,数据库,文件等数据对象做读写操作。org.apache. 阅读全文
posted @ 2013-03-13 15:26 南宫星海 阅读(357) 评论(0) 推荐(0)
在windows上建立hadoop+eclipse开发环境
摘要:2013-03-07版本要求:jdk1.6(及以上),hadoop0.20.2(此后的版本会出现datanode无法启动的问题),eclipse3.3(此后的版本可能与插件不兼容)1、安装Cygwin(参考“在Windows上安装Hadoop教程”)从http://www.cygwin.com/setup.exe下载安装文件,运行安装。弹出CygwinNetReleaseSetupProgram,在downloadsource页面选择InstallfromInternet下一步选择Cygwin的安装目录为“E:\cygwin”,InstallFor选择“AllUsers”,DefaultTex 阅读全文
posted @ 2013-03-07 21:00 南宫星海 阅读(689) 评论(0) 推荐(0)
MapReduce的核心资料索引
摘要:转自http://prinx.blog.163.com/blog/static/190115275201211128513868/按如下顺序看效果最佳:1. MapReduce Simplied Data Processing on Large Clusters2. Hadoop环境的安装 By 徐伟3. Parallel K-Means Clustering Based on MapReduce4. 《Hadoop权威指南》的第一章和第二章5. 迭代式MapReduce框架介绍 董的博客6. HaLoop: Efficient Iterative Data Processing on Lar 阅读全文
posted @ 2013-03-06 21:36 南宫星海 阅读(485) 评论(0) 推荐(0)
Hadoop(初步)
摘要:Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming 阅读全文
posted @ 2013-03-06 21:16 南宫星海 阅读(381) 评论(0) 推荐(0)