随笔分类 -  hadoop1

something about hadoop1
摘要:今天有同学问我,如何kill掉制定用户的所有job,有没有现成的命令?我看了一下hadoop job命令的提示,没有这样的命令。其实实现kill指定用户的job也非常简单,本身hadoop job命令已经带有很多实用的job管理功能了。列出Jobtracer上所有的作业hadoop job -lis... 阅读全文
posted @ 2015-01-15 14:18 jseven 阅读(1169) 评论(0) 推荐(0)
摘要:一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.ap... 阅读全文
posted @ 2014-08-10 09:36 jseven 阅读(343) 评论(0) 推荐(0)
摘要:请问下,如果有多个统计,要统计的数据都一样,每个统计只是group by 的key不一样,怎样做,才能让这些统计最快完成? 恩,比如有10个统计,每个统计都是读取的同一份数据,但是统计的维度不一样,就是groupby的key不一样你们都是怎么处理的?语句类似这个:: from( selectk1,k... 阅读全文
posted @ 2014-08-05 13:29 jseven 阅读(2328) 评论(0) 推荐(0)
摘要:问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使... 阅读全文
posted @ 2014-08-05 09:42 jseven 阅读(1656) 评论(0) 推荐(0)
摘要:1、mysql-- 创建数据库create database logs;-- 使用use logs;-- 创建表create table weblogs(md5varchar(32),urlvarchar(64),request_datedate,request_timetime,ipvarchar... 阅读全文
posted @ 2014-07-28 11:47 jseven 阅读(762) 评论(0) 推荐(0)
摘要:create database logs;use logscreate table weblogs_from_hdfs(md5varchar(32),urlvarchar(64),request_datedate,request_timetime,ipvarchar(15));sqoop expor... 阅读全文
posted @ 2014-07-28 11:46 jseven 阅读(495) 评论(0) 推荐(0)
摘要:hadoop fs列出所有的命令hadoop fs -help ls列出某个命令的详细信息hadoop dfs -mkdir /data/weblogshadoop dfs -mkdir /data/dir1 /data/dir2 ...创建文件夹,可以递归创建,可同时创建多个目录echo "Hel... 阅读全文
posted @ 2014-07-28 11:45 jseven 阅读(1455) 评论(0) 推荐(0)
摘要:distcp启动MR实现复制1、关闭源集群map任务的推测执行,mapred-site.xml mapred.map.tasks.specutive.execution false,避免map任务失败时产生不可知的行为2、版本hadoop必须一致前提:B上已建立对应文件夹接收数据1、复制A->Bha... 阅读全文
posted @ 2014-07-28 11:44 jseven 阅读(894) 评论(0) 推荐(0)
摘要:HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HD... 阅读全文
posted @ 2014-07-20 11:16 jseven 阅读(777) 评论(0) 推荐(0)
摘要:DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象;按... 阅读全文
posted @ 2014-07-18 16:04 jseven 阅读(930) 评论(0) 推荐(0)
摘要:http://developer.51cto.com/art/201006/204137.htm本节向大家介绍一下Hadoop分布式文件系统中架构和设计的要点,本节主要从六个方面来介绍,欢迎大家一起来学习,希望通过本节的介绍大家对Hadoop分布式文件系统有更加深刻的认识。Hadoop分布式文件系统... 阅读全文
posted @ 2014-07-17 20:16 jseven 阅读(220) 评论(0) 推荐(0)
摘要:http://developer.51cto.com/art/201006/204140.htm本节继续向大家介绍一下Hadoop分布式文件系统中架构和设计的要点,本节主要包括四个部分,相信通过本节的介绍你对Hadoop分布式文件系统中架构和设计的要点应该有深刻的认识。下面是具体介绍。一、健壮性Ha... 阅读全文
posted @ 2014-07-17 20:06 jseven 阅读(241) 评论(0) 推荐(0)
摘要:http://developer.51cto.com/art/201012/236249.htm【51CTO译文】Apache Hadoop是一个用于构建大规模,共享存储和计算基础设施的软件框架,Hadoop集群经常用于各种研究和开发项目,如Yahoo!,eBay,Facebook,Twitter等... 阅读全文
posted @ 2014-07-17 18:44 jseven 阅读(216) 评论(0) 推荐(0)
摘要:LZO压缩,可分块并行处理,解压缩的效率也是可以的。为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器并配置lzo的文件:core-site.xml、mapred-site.xml。希望对大家有所帮助。以下是正... 阅读全文
posted @ 2014-07-17 18:28 jseven 阅读(894) 评论(0) 推荐(0)
摘要:Hdfs文件系统,提供了一套基于hadoop的抽象文件系统的API,支持以流的方式访问文件系统中的数据。特性:1、 支持超大文件2、 检测和快速应对硬件故障(故障检测和自动恢复)3、 流式数据访问,注重的是数据的吞吐量,而不是数据的响应速度4、 简化的一致性模型,一次写入,多次读取。不适合:5、 低... 阅读全文
posted @ 2014-07-02 23:09 jseven 阅读(189) 评论(0) 推荐(0)
摘要:1.1.1. hadoop IO 对比Java IO即可 FSDataInputStream,FSDataOutputStream 为抽象类, FSInputStream抽象类 1.1.2. hadoop文件系统中的权限 枚举类FsAction定义了rwx权限,常量 ... 阅读全文
posted @ 2014-07-01 22:59 jseven 阅读(141) 评论(0) 推荐(0)
摘要:1.1. hadoop抽象文件系统 因java.io.FileSystem为私有抽象包,不可被外界包引用,因此hadoop特别提供了一个抽象的文件系统, HDFS只是一个具体实现,org.apache.hadoop.fs.FileSystem hadoop通过getFi... 阅读全文
posted @ 2014-07-01 22:55 jseven 阅读(200) 评论(0) 推荐(0)
摘要:1.1. java文件系统 1.1.1. URI和URL 1.1.2. java IO(自行研究) 阅读全文
posted @ 2014-07-01 22:52 jseven 阅读(116) 评论(0) 推荐(0)
摘要:文件系统,对文件和目录的管理1.1. linux本地文件系统1.1.1. 虚拟文件系统1.1.1. linux文件保护机制 1.2. 分布式文件系统NFS 阅读全文
posted @ 2014-07-01 22:49 jseven 阅读(200) 评论(0) 推荐(0)
摘要:1.1. hadoop远程过程调用1、 远程接口调用(必须实现VersionedProtocol接口)里面有一个方法,IPC通信时会比较客户端和服务端接口的版本号。必须一致才可以package rpc;import org.apache.hadoop.ipc.VersionedProtocol;pu... 阅读全文
posted @ 2014-06-30 23:13 jseven 阅读(270) 评论(0) 推荐(0)