随笔分类 -  Hadoop Sample

presto,dremio,spark-sql与ranger的整合记录
摘要:dremio,spark-sql,presto和ranger的整合 当前,ranger没有现成的插件来管理dremio,spark-sql,presto。 暂时使用的方法是新建一个用户,如presto可以创建一个presto用户,然后在ranger中对presto用户赋予hive,hdfs的访问权限 阅读全文

posted @ 2019-07-19 22:52 tneduts 阅读(2109) 评论(0) 推荐(0)

hdp3.1 hive 3.0的使用记录
摘要:spark-sql如何访问hive3.1中的内部表 阅读全文

posted @ 2019-05-11 11:59 tneduts 阅读(3620) 评论(1) 推荐(1)

大数据相关的面试题(摘自网络)hbase,kafka,spark
摘要:1.讲讲你做的过的项目, 项目里有哪些难点重点呢? kafkaDirect ES /hive kafka producer 难点值得一提的有两点: 1.rdd中用到外部变量的时候如何处理 2.广播变量的更新 rdd处理kafka读过来的数据,这些数据引用外部的class来进行规则解析,规则的更新后怎 阅读全文

posted @ 2019-01-18 09:26 tneduts 阅读(1124) 评论(0) 推荐(0)

记一次ZOOKEEPER集群超时问题分析
摘要:CDH安装的ZK,三个节点,基本都是默认配置,一直用得正常,今天出现问题,客户端连接超时6倍时长,默认最大会话超时时间是一分钟。原因分析:1.首先要确认网络正确。确认时钟同步。2.查看现有的配置,基本都是默认配置 JVM配置是1G 有 2g的,不一样3.查看dataDir目录,du -sh .发现已 阅读全文

posted @ 2018-12-31 21:01 tneduts 阅读(2911) 评论(0) 推荐(0)

windows平台kettle连接hbase的问题
摘要:我本机安装的环境是centos7,并在本机上安装了zookeeper,hadoop,hbase,hive等组件, 使用pdi7.1来连接hbase,把mysql表中的数据导出到hbase中去,没有问题。 因为其他同事使用的是windows环境,在连接cdh vm的环境时,hbase一直连接可以,而执 阅读全文

posted @ 2018-09-26 09:08 tneduts 阅读(2803) 评论(0) 推荐(0)

centos7 最小化安装后的配置优化
摘要:echo #CENTOS7echo #1.最小化安装之后需要做的事echo 2.配置echo 2.1 安装网络yum install net-tools -yecho 2.2 更新机器名echo hdp1.student >/etc/hostname echo 2.3.配置防火墙 echo #关闭防 阅读全文

posted @ 2017-09-17 21:11 tneduts 阅读(643) 评论(2) 推荐(0)

yarn nodes label (yarn 划分子集群)
摘要:yarn node labels 特性给节点打标签可以把特性类似的节点分成一组,这样可以指定特定的应用执行在特定的机器群上.现在我们只支持节点划分,1.一个节点仅能有一个节点划分,即一个节点只能打一个标签.这样一个集群就可以被划分成多个不相交的子集群,默认的,节点属于一个叫default的分区.2. 阅读全文

posted @ 2017-09-16 11:17 tneduts 阅读(960) 评论(0) 推荐(0)

yarn 与 resource manager ha
摘要:YARN最初的思想是把hadoop1中的job tracker的功能拆分出来,把它的资源管理与任务调度功能分成两个单独的进程.yarn体系结构中有两个进程,resource manager和nodemanger.前者主要负责资源分配,后者nodemanager在每一个机器中都有一个进程,负责cont 阅读全文

posted @ 2017-09-12 08:20 tneduts 阅读(724) 评论(0) 推荐(0)

mysql调优小记
摘要:对于INNODB,主键就是聚集索引,如果没有主键定义,则第一个唯一非空索引被作为聚集索引.如果没有主键也没有合适的唯一索引,那么innodb内部会生成一个隐藏的主键作为聚集索引,这个隐藏的主键类似一个自增的id(int).删除与重新添加主键alter table tbname drop primar 阅读全文

posted @ 2017-08-25 21:16 tneduts 阅读(229) 评论(1) 推荐(0)

CDH5离线安装简记
摘要:CDH,hadoop 阅读全文

posted @ 2017-08-19 18:11 tneduts 阅读(242) 评论(1) 推荐(0)

zookeeper基础知识
摘要:Zookeeper 不仅能够帮你维护当前的集群中机器的服务状态,而且能够帮你选出一个“总管”,让这个总管来管理集群,这就是 Zookeeper 的另一个功能 Leader Election。配置管理(Configuration Management)配置的管理在分布式应用环境中很常见,例如同一个应用 阅读全文

posted @ 2017-05-20 21:15 tneduts 阅读(230) 评论(0) 推荐(0)

hdp (ambari) 集成hue
摘要:ambari-server resetambari-admin-password-reset https://github.com/EsharEditor/ambari-hue-service可以基于HDP来访问HUE,暂时没有做尝试 我尝试了,使用hdp自带的hue rpm包来安装,直接yum i 阅读全文

posted @ 2017-05-03 16:48 tneduts 阅读(4340) 评论(1) 推荐(0)

HDFS datanode心跳与运维中的实际案例
摘要:分布式系统的节点之间常采用心跳来维护节点的健康状态,如yarn的rm与nm之间,hdfs的nn与dn之间。DataNode会定期(dfs.heartbeat.interval配置项配置,默认是3秒)向namenode发送心跳,如果Namenode长时间没有接受到datanode发送的心跳,我们在50 阅读全文

posted @ 2017-02-14 09:45 tneduts 阅读(1940) 评论(0) 推荐(0)

hadoop nn 运维一例
摘要:nn1 崩溃之后,nn2变为active,但是nn1日志中有异常,处于standby状态的,无法响应读的操作 最后查出原因是因为fensing的问题。 阅读全文

posted @ 2017-02-07 10:43 tneduts 阅读(337) 评论(0) 推荐(0)

Hadoop性能调优
摘要:1 硬件选择 主要区分NAMENODE与DATANODE的功能需求,NN维护全局元数据信息,随着保存的INODES数量的增加,对内存需求增加,按每一百万INODES一G来粗略计算,JVM的XMX参数需要动态调整。 2 OS参数调优 操作系统,生产环境中都使用LINUX,以下就是指对LINUX系统的参数调优。 A.增加同时打开的文件描述符和网络连接上限 在系统运行中,随着接受作业数量的增加... 阅读全文

posted @ 2017-01-10 21:07 tneduts 阅读(2766) 评论(0) 推荐(0)

hortonworks2.5.3 install step log
摘要:1.创建本地YUM源,下载TAR。GZ HDP,HDP-UTILS,AMBARI介质安装HTTPD,在/VAR/WWW/HTML/下创建三个相应的目录,把以上解压的三个目录链接过来在三个目录中执行命令,createrepo ./至此,本地YUM源创建完毕。 cd /etc/yum.repos.d/ 阅读全文

posted @ 2017-01-03 10:58 tneduts 阅读(299) 评论(0) 推荐(0)

hdfs client access the hdfs cluster not in one domain
摘要:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html#Clients_use_Hostnames_when_connecting_to_DataNodes sometimes when you access your hadoop cluster outside the... 阅读全文

posted @ 2016-10-28 14:47 tneduts 阅读(392) 评论(0) 推荐(0)

HADOOP HA切换后出现MSSING BLOCK
摘要:HDFS HA切换后missing block问题分析 今天因为调整一个NN的参数,所以切换一个ACTIVE的NN,发生了MISSING BLOCK。 怀疑可能是EDITLOG没有同步完成,可能是误报。 找到这http://blog.csdn.net/u011291159/article/detai 阅读全文

posted @ 2016-08-29 15:09 tneduts 阅读(315) 评论(0) 推荐(0)

hadoop.home.dir is not set
摘要:今天遇到一个错误,JAVA堆栈如下: 是在获取文件系统对象的时候出错,没有找到环境变量 HADOOP_HOME or hadoop.home.dir ,但是在本地一直没有重现这个问题。 这个问题是一个小BUG,在调用SHELL的时候一个静态初始化造成的,这个JAR包是运行在客户端去HDFS拉取数据, 阅读全文

posted @ 2016-08-18 09:48 tneduts 阅读(2670) 评论(0) 推荐(0)

hdfs 通过NFSV3 加载至本地目录
摘要:常常会有这种需求,把HDFS的目录MOUNT到本地目录,然后方便使用LINUX下面的命令直接操作. FUSE也可以达到同样的效果,但是配置比较复杂,新的HADOOP版本都建议使用NFS3来完成这个需求. 要点记录, 1. CORE-SITE.XML 修改 <property> <name>hadoo 阅读全文

posted @ 2016-07-22 07:56 tneduts 阅读(362) 评论(0) 推荐(0)

导航