hadoop - 随笔分类 - gongxiucheng

spark读取mongodb数据写入hive表中

摘要：一环境：二.数据情况：三.Eclipse+Maven+Java 3.1 依赖： 3.2 代码：工具类：四错误解决办法：下载cdh集群Hive的hive-site.xml文件，在项目中新建resources文件夹，讲hive-site.xml配置文件放入其中：五执行情况：耗时14m 阅读全文

posted @ 2018-11-27 16:39 gongxiucheng 阅读(3379) 评论(0) 推荐(0)

Error: Error while compiling statement: FAILED: SemanticException Unable to determine if hdfs://hadoopNode2:8020/user/hive/warehouse/test is encrypted...

摘要：1.发现问题：在hive客户端或者beeline查询hive表时候报错：根据报错信息查看，是在集群namenode做了HA之后，产生的hdfs路径不对的问题； 2.解决问题，修改hive元数据mysql信息表DBS和SDS: 更改语句： mysql> update sds set LOCATIO 阅读全文

posted @ 2018-06-27 16:46 gongxiucheng 阅读(12663) 评论(0) 推荐(0)

（转） Sqoop使用实例讲解

摘要：原博客地址：http://blog.csdn.net/evankaka 摘要：本文主要讲了笔者在使用sqoop过程中的一些实例一、概述与基本原理 Apache Sqoop（SQL-to-Hadoop）项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的阅读全文

posted @ 2018-06-26 14:54 gongxiucheng 阅读(1281) 评论(0) 推荐(0)

CDH-5.9.2整合spark2

摘要：1.编写目的：由于cdh-5.9.2自带spark版本是spark1.6，现需要测试spark2新特性，需要整合spark2，且spark1.x和spark2.x可以同时存在于cdh中，无需先删除spark1.x； 2.安装包下载 2.1首先下载csd包，地址： http://archive.cl 阅读全文

posted @ 2018-05-21 11:26 gongxiucheng 阅读(615) 评论(0) 推荐(0)

开源版本 hadoop-2.7.5 + apache-hive-2.1.1 + spark-2.3.0-bin-hadoop2.7整合使用

摘要：一，开源软件版本： hadoop版本： hadoop-2.7.5 hive版本：apache-hive-2.1.1 spark版本： spark-2.3.0-bin-hadoop2.7 各个版本到官网下载就ok，注意的是版本之间的匹配机器介绍，三台机器，第一台canal1为主节点+工作节点，另阅读全文

posted @ 2018-05-14 14:06 gongxiucheng 阅读(673) 评论(0) 推荐(0)

Phoenix映射HBase数据表

摘要：1. 说明安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射，所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。 2. 创建HBase表 3. 插入数据高能预警：HBase数据表默认主键列名是ROW 4. 创建Phoenix表在Phoenix中创建相同结阅读全文

posted @ 2018-04-25 17:30 gongxiucheng 阅读(387) 评论(0) 推荐(0)

5.hbase表新增数据同步之add_peer

摘要：一.前提主从集群之间能互相通讯；二.在cluster1上（源集群）： 1.查看集群已开启的peers hbase(main):011:0> list_peers PEER_ID CLUSTER_KEY STATE TABLE_CFS 10 slave.01.bigdata.prod.wgq,sla 阅读全文

posted @ 2018-04-18 11:43 gongxiucheng 阅读(1295) 评论(0) 推荐(0)

4.HBASE数据迁移方案（之snapshot）：

摘要：4.HBASE数据迁移方案： 4.1 Import/Export 4.2 distcp 4.3 CopyTable 4.4 snapshot 快照方式迁移（以USER_info:user_log_info为例） 1.先在源集群建立该表的快照 hbase(main):003:0> snapshot " 阅读全文

posted @ 2018-04-16 15:50 gongxiucheng 阅读(435) 评论(0) 推荐(0)

最新cloudera大数据培训班 ccah ccdh 数据分析师数据科学家

摘要：上海2月21-24日Cloudera Developer training for Spark and Hadoop(CCA-175)北京2月23-26日Cloudera Developer training for Spark and Hadoop(CCA-175)上海2月27-3月2日Cloud 阅读全文

posted @ 2017-03-04 11:59 gongxiucheng 阅读(679) 评论(0) 推荐(0)

Ganglia3.1.7安装与配置(收录)

摘要：一、所需要软件二、安装过程 1、Ganglia运行平台的安装 2、Ganglia依赖库的安装 3、RRDTool的安装 4、Ganglia的安装 (包括使用yum方式安装) 三、简单配置四、启动与访问五、被监控节点上安装Ganglia (包括使用yum方式安装) 六、遇到的问题，及解决办法流阅读全文

posted @ 2016-05-10 14:31 gongxiucheng 阅读(344) 评论(0) 推荐(0)

Hadoop Sentry 学习

摘要：什么是Sentry？ Sentry 是Cloudera 公司发布的一个Hadoop开源组件，它提供细粒度基于角色的安全控制 Sentry下的数据访问和授权通过引进Sentry，Hadoop目前可在以下方面满足企业和政府用户的RBAC（role-based acess control）需求：安全授阅读全文

posted @ 2016-04-24 14:56 gongxiucheng 阅读(1955) 评论(0) 推荐(0)

安装和配置Sentry(收录)

摘要：安装和配置Sentry 本文主要记录安装和配置Sentry的过程，关于Sentry的介绍，请参考 Apache Sentry架构介绍。 1. 环境说明系统环境：操作系统：CentOs 6.6 Hadoop版本： CDH5.4 运行用户：root 这里，我参考使用yum安装CDH Hadoop 阅读全文

posted @ 2016-04-24 14:46 gongxiucheng 阅读(4024) 评论(0) 推荐(0)

sqoop 的使用 -20160410

摘要：1 导入导出数据库 1)列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password 123456 2)连接mysql并列出数据库中的表命令# 阅读全文

posted @ 2016-04-10 16:35 gongxiucheng 阅读(178) 评论(0) 推荐(0)

深度分析如何在Hadoop中控制Map的数量(摘抄)

摘要：很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每个文件的size都小于HDFS的blockSize，那么会造成启动的Mapper 阅读全文

posted @ 2016-04-06 16:57 gongxiucheng 阅读(312) 评论(0) 推荐(0)

大数据培训班 cloudera公司讲师面对面授课 CCDH CCAH CCP

摘要：大数据助力成就非凡。大数据正在改变着商业游戏规则，为企业解决传统业务问题带来变革的机遇。毫无疑问，当未来企业尝试分析现有海量信息以推动业务价值增值时，必定会采用大数据技术。目前对大数据的分析工具，首选的是Hadoop平台。由于Hadoop深受客户欢迎，许多公司都推出了各自版本的Hadoop，也有一阅读全文

posted @ 2016-03-22 17:39 gongxiucheng 阅读(6574) 评论(0) 推荐(0)

Yarn 调度器Scheduler详解

摘要：理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。阅读全文

posted @ 2016-03-12 09:53 gongxiucheng 阅读(7284) 评论(1) 推荐(2)

随笔分类 - hadoop

公告