随笔分类 - hadoop
摘要:一 环境: 二.数据情况: 三.Eclipse+Maven+Java 3.1 依赖: 3.2 代码: 工具类: 四 错误解决办法: 下载cdh集群Hive的hive-site.xml文件,在项目中新建resources文件夹,讲hive-site.xml配置文件放入其中: 五 执行情况: 耗时14m
阅读全文
摘要:1.发现问题: 在hive客户端或者beeline查询hive表时候报错: 根据报错信息查看,是在集群namenode做了HA之后,产生的hdfs路径不对的问题; 2.解决问题,修改hive元数据mysql信息表DBS和SDS: 更改语句: mysql> update sds set LOCATIO
阅读全文
摘要:原博客地址:http://blog.csdn.net/evankaka 摘要:本文主要讲了笔者在使用sqoop过程中的一些实例 一、概述与基本原理 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的
阅读全文
摘要:1.编写目的:由于cdh-5.9.2自带spark版本是spark1.6,现需要测试spark2新特性,需要整合spark2, 且spark1.x和spark2.x可以同时存在于cdh中,无需先删除spark1.x; 2.安装包下载 2.1首先下载csd包,地址: http://archive.cl
阅读全文
摘要:一,开源软件版本: hadoop版本 : hadoop-2.7.5 hive版本 :apache-hive-2.1.1 spark版本: spark-2.3.0-bin-hadoop2.7 各个版本到官网下载就ok,注意的是版本之间的匹配 机器介绍,三台机器,第一台canal1为主节点+工作节点,另
阅读全文
摘要:1. 说明 安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射,所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。 2. 创建HBase表 3. 插入数据 高能预警:HBase数据表默认主键列名是ROW 4. 创建Phoenix表 在Phoenix中创建相同结
阅读全文
摘要:一.前提主从集群之间能互相通讯; 二.在cluster1上(源集群): 1.查看集群已开启的peers hbase(main):011:0> list_peers PEER_ID CLUSTER_KEY STATE TABLE_CFS 10 slave.01.bigdata.prod.wgq,sla
阅读全文
摘要:4.HBASE数据迁移方案: 4.1 Import/Export 4.2 distcp 4.3 CopyTable 4.4 snapshot 快照方式迁移(以USER_info:user_log_info为例) 1.先在源集群建立该表的快照 hbase(main):003:0> snapshot "
阅读全文
摘要:上海2月21-24日Cloudera Developer training for Spark and Hadoop(CCA-175)北京2月23-26日Cloudera Developer training for Spark and Hadoop(CCA-175)上海2月27-3月2日Cloud
阅读全文
摘要:一、所需要软件 二、安装过程 1、Ganglia运行平台的安装 2、Ganglia依赖库的安装 3、RRDTool的安装 4、Ganglia的安装 (包括使用yum方式安装) 三、简单配置 四、启动与访问 五、被监控节点上安装Ganglia (包括使用yum方式安装) 六、遇到的问题,及解决办法 流
阅读全文
摘要:什么是Sentry? Sentry 是Cloudera 公司发布的一个Hadoop开源组件,它提供细粒度基于角色的安全控制 Sentry下的数据访问和授权 通过引进Sentry,Hadoop目前可在以下方面满足企业和政府用户的RBAC(role-based acess control)需求: 安全授
阅读全文
摘要:安装和配置Sentry 本文主要记录安装和配置Sentry的过程,关于Sentry的介绍,请参考 Apache Sentry架构介绍 。 1. 环境说明 系统环境: 操作系统:CentOs 6.6 Hadoop版本: CDH5.4 运行用户:root 这里,我参考 使用yum安装CDH Hadoop
阅读全文
摘要:1 导入导出数据库 1)列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password 123456 2)连接mysql并列出数据库中的表命令#
阅读全文
摘要:很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper
阅读全文
摘要:大数据助力成就非凡。大数据正在改变着商业游戏规则,为企业解决传统业务问题带来变革的机遇。毫无疑问,当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术。 目前对大数据的分析工具,首选的是Hadoop平台。由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一
阅读全文
摘要:理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。
阅读全文
浙公网安备 33010602011771号