随笔分类 -  [Hadoop]

学习与复习使用
摘要:注:转载请署名 一、实体 二、工具类 转换工具类 工具类 阅读全文
posted @ 2018-01-28 00:55 eRrsr 阅读(760) 评论(0) 推荐(0)
摘要:注:转载请署名 一、实体 二、前端页面 三、控制器 四、FileDao类 Page类 效果图 阅读全文
posted @ 2018-01-28 00:45 eRrsr 阅读(923) 评论(0) 推荐(0)
摘要:hue默认使用sqlite作为元数据库,不推荐在生产环境中使用这个数据库使用mysql做元数据 1, 修改hue.ini文件[[database]]engine=mysqlhost=<mysql所在服务器>port=<mysql端口,一般就是3306了>user=<用户名>password=<密码> 阅读全文
posted @ 2017-12-29 19:22 eRrsr
摘要:组件 阅读全文
posted @ 2016-11-25 21:31 eRrsr 阅读(529) 评论(0) 推荐(0)
摘要:HDFS文件格式 数据存储的方式 常见的压缩技术 阅读全文
posted @ 2016-11-24 16:47 eRrsr 阅读(4360) 评论(0) 推荐(0)
摘要:UDTF: 一进多出 简单示例,将一列数据分成两列输出,name--> name,name+email 测试 阅读全文
posted @ 2016-11-24 11:23 eRrsr 阅读(836) 评论(0) 推荐(0)
摘要:UDAF: 多进一出 简单示例,重写SUM函数 测试 阅读全文
posted @ 2016-11-24 11:17 eRrsr 阅读(600) 评论(0) 推荐(0)
摘要:UDF: 一进一出 简单示例,去除某一列双引号 阅读全文
posted @ 2016-11-24 11:02 eRrsr 阅读(536) 评论(0) 推荐(0)
摘要:一、网站基本指标(即针对于网站用户行为而产生的日志中进行统计分析) 二、UV统计示例(也就是每天每个省份有多少人访问了该网站) 三、UV统计代码示例 阅读全文
posted @ 2016-10-28 18:48 eRrsr 阅读(402) 评论(0) 推荐(0)
摘要:一、对于二次排序案例部分理解 二、二次排序示例代码 三、MapReduce join简单理解 四、MapReduce join代码示例 阅读全文
posted @ 2016-10-28 18:42 eRrsr 阅读(613) 评论(0) 推荐(0)
摘要:一、概念与HA思路 二、部署与搭建测试 1. 目录规划(hdfs存储位置,JournalNode存储位置,等) 2. 上传并解压Hadoop 3. 配置自定义(这仅仅配置HDFS NameNode HA) 4. 分发配置文件目录(注意刚才新建的data/dfs/jn,其他节点也要保持一致) 5. 分 阅读全文
posted @ 2016-10-22 21:30 eRrsr 阅读(419) 评论(0) 推荐(0)
摘要:一、部分概念 二、简单搭建Hadoop分布式集群(分布式指的是Hadoop,集群指在多台节点运行一个Hadoop系统) 1. 做好规划: 1> 需要哪些服务要先想好,因为配置文件后会分发到其他节点,避免重复修改配置 比如:我将要运行的服务有hdfs,yarn,mapreduce,secondarys 阅读全文
posted @ 2016-10-21 17:29 eRrsr 阅读(255) 评论(0) 推荐(0)
摘要:一、网站基本指标(即针对于网站用户行为而产生的日志中进行统计分析) 二、PV统计示例(统计各省的PV) 三、具体代码实现 1. 放置好资源文件 (即:将自定义配置文件拷贝到MR程序的资源文件夹,当然使用javaAPI将属性set进configuration也行) 2. 具体代码 阅读全文
posted @ 2016-10-21 11:39 eRrsr 阅读(310) 评论(0) 推荐(0)
摘要:一、概念 1. 一个开源的、分布式的,为分布式应用提供协调服务的Apache项目 2. 提供一个简单的原语集合,以便于分布式应用可以在它之上构建更高层次的同步服务 3. 设计非常易于编程,它使用的是类似于文件系统那样的树形数据结构 4. 目的是将分布式服务不再需要由于协作冲突而另外实现协作服务 5. 阅读全文
posted @ 2016-10-20 01:03 eRrsr 阅读(566) 评论(0) 推荐(0)
摘要:一、检查linux系统NTP是否被安装 ☹ 如果没有安装 二、使用命令安装ntp后,/etc/下会有ntp.conf文件 1. 同步当前系统时间和写入BOIS: 2. 修改/etc/ntp.conf文件: 3. 配置启动服务和开机自启(标注# ◆ 是我走的步骤) 4. 防火墙配置(标注# ◆ 是我走 阅读全文
posted @ 2016-10-19 22:12 eRrsr 阅读(405) 评论(0) 推荐(0)
摘要:1、map到reduce中间的一个过程 洗牌,打乱(打乱我们传递的所有元素)(流程:input->map->reduce->output) 2、map()->shuffle->reduce() 3、shuffle过程 阅读全文
posted @ 2016-10-14 20:14 eRrsr 阅读(2083) 评论(0) 推荐(0)
摘要:1、在实际生产环境中为Hadoop配置无秘钥登录非常有必要 2、生成公钥与私钥 3、发送到节点(机器)上 4、测试一下 OK! 阅读全文
posted @ 2016-10-14 16:08 eRrsr 阅读(647) 评论(0) 推荐(0)
摘要:代码如下, 后备参考: 阅读全文
posted @ 2016-10-11 11:45 eRrsr 阅读(482) 评论(0) 推荐(0)
摘要:代码如下, 后备参考: 阅读全文
posted @ 2016-10-11 11:36 eRrsr 阅读(387) 评论(0) 推荐(0)
摘要:一、基本环境搭建 1. 准备 2. 安装 jdk-7u67-linux-x64.tar.gz 与 apache-maven-3.0.5-bin.tar.gz PS:准备文件中最好准备好maven的仓库文件,否则将下载很久 3. yum 安装 cmake,zlib-devel,openssl-deve 阅读全文
posted @ 2016-10-06 12:24 eRrsr 阅读(336) 评论(0) 推荐(0)