Hadoop Sample - 随笔分类 - tneduts

presto,dremio,spark-sql与ranger的整合记录

摘要：dremio,spark-sql,presto和ranger的整合当前，ranger没有现成的插件来管理dremio,spark-sql,presto。暂时使用的方法是新建一个用户，如presto可以创建一个presto用户，然后在ranger中对presto用户赋予hive,hdfs的访问权限阅读全文

posted @ 2019-07-19 22:52 tneduts 阅读(2109) 评论(0) 推荐(0)

hdp3.1 hive 3.0的使用记录

摘要：spark-sql如何访问hive3.1中的内部表阅读全文

posted @ 2019-05-11 11:59 tneduts 阅读(3620) 评论(1) 推荐(1)

大数据相关的面试题（摘自网络）hbase,kafka,spark

摘要：1.讲讲你做的过的项目, 项目里有哪些难点重点呢？ kafkaDirect ES /hive kafka producer 难点值得一提的有两点： 1.rdd中用到外部变量的时候如何处理 2.广播变量的更新 rdd处理kafka读过来的数据，这些数据引用外部的class来进行规则解析，规则的更新后怎阅读全文

posted @ 2019-01-18 09:26 tneduts 阅读(1124) 评论(0) 推荐(0)

记一次ZOOKEEPER集群超时问题分析

摘要：CDH安装的ZK，三个节点，基本都是默认配置，一直用得正常，今天出现问题，客户端连接超时6倍时长，默认最大会话超时时间是一分钟。原因分析：1.首先要确认网络正确。确认时钟同步。2.查看现有的配置，基本都是默认配置 JVM配置是1G 有 2g的，不一样3.查看dataDir目录，du -sh .发现已阅读全文

posted @ 2018-12-31 21:01 tneduts 阅读(2911) 评论(0) 推荐(0)

windows平台kettle连接hbase的问题

摘要：我本机安装的环境是centos7，并在本机上安装了zookeeper,hadoop,hbase,hive等组件，使用pdi7.1来连接hbase，把mysql表中的数据导出到hbase中去，没有问题。因为其他同事使用的是windows环境，在连接cdh vm的环境时，hbase一直连接可以，而执阅读全文

posted @ 2018-09-26 09:08 tneduts 阅读(2803) 评论(0) 推荐(0)

centos7 最小化安装后的配置优化

摘要：echo #CENTOS7echo #1.最小化安装之后需要做的事echo 2.配置echo 2.1 安装网络yum install net-tools -yecho 2.2 更新机器名echo hdp1.student >/etc/hostname echo 2.3.配置防火墙 echo #关闭防阅读全文

posted @ 2017-09-17 21:11 tneduts 阅读(643) 评论(2) 推荐(0)

yarn nodes label (yarn 划分子集群)

摘要：yarn node labels 特性给节点打标签可以把特性类似的节点分成一组,这样可以指定特定的应用执行在特定的机器群上.现在我们只支持节点划分,1.一个节点仅能有一个节点划分,即一个节点只能打一个标签.这样一个集群就可以被划分成多个不相交的子集群,默认的,节点属于一个叫default的分区.2. 阅读全文

posted @ 2017-09-16 11:17 tneduts 阅读(960) 评论(0) 推荐(0)

yarn 与 resource manager ha

摘要：YARN最初的思想是把hadoop1中的job tracker的功能拆分出来,把它的资源管理与任务调度功能分成两个单独的进程.yarn体系结构中有两个进程,resource manager和nodemanger.前者主要负责资源分配,后者nodemanager在每一个机器中都有一个进程,负责cont 阅读全文

posted @ 2017-09-12 08:20 tneduts 阅读(724) 评论(0) 推荐(0)

mysql调优小记

摘要：对于INNODB,主键就是聚集索引,如果没有主键定义,则第一个唯一非空索引被作为聚集索引.如果没有主键也没有合适的唯一索引,那么innodb内部会生成一个隐藏的主键作为聚集索引,这个隐藏的主键类似一个自增的id(int).删除与重新添加主键alter table tbname drop primar 阅读全文

posted @ 2017-08-25 21:16 tneduts 阅读(229) 评论(1) 推荐(0)

CDH5离线安装简记

摘要：CDH,hadoop 阅读全文

posted @ 2017-08-19 18:11 tneduts 阅读(242) 评论(1) 推荐(0)

zookeeper基础知识

摘要：Zookeeper 不仅能够帮你维护当前的集群中机器的服务状态，而且能够帮你选出一个“总管”，让这个总管来管理集群，这就是 Zookeeper 的另一个功能 Leader Election。配置管理（Configuration Management）配置的管理在分布式应用环境中很常见，例如同一个应用阅读全文

posted @ 2017-05-20 21:15 tneduts 阅读(230) 评论(0) 推荐(0)

hdp (ambari) 集成hue

摘要：ambari-server resetambari-admin-password-reset https://github.com/EsharEditor/ambari-hue-service可以基于HDP来访问HUE,暂时没有做尝试我尝试了,使用hdp自带的hue rpm包来安装,直接yum i 阅读全文

posted @ 2017-05-03 16:48 tneduts 阅读(4340) 评论(1) 推荐(0)

HDFS datanode心跳与运维中的实际案例

摘要：分布式系统的节点之间常采用心跳来维护节点的健康状态，如yarn的rm与nm之间，hdfs的nn与dn之间。DataNode会定期（dfs.heartbeat.interval配置项配置，默认是3秒）向namenode发送心跳，如果Namenode长时间没有接受到datanode发送的心跳，我们在50 阅读全文

posted @ 2017-02-14 09:45 tneduts 阅读(1940) 评论(0) 推荐(0)

hadoop nn 运维一例

摘要：nn1 崩溃之后，nn2变为active，但是nn1日志中有异常，处于standby状态的，无法响应读的操作最后查出原因是因为fensing的问题。阅读全文

posted @ 2017-02-07 10:43 tneduts 阅读(337) 评论(0) 推荐(0)

摘要：1 硬件选择主要区分NAMENODE与DATANODE的功能需求，NN维护全局元数据信息，随着保存的INODES数量的增加，对内存需求增加，按每一百万INODES一G来粗略计算，JVM的XMX参数需要动态调整。 2 OS参数调优操作系统，生产环境中都使用LINUX，以下就是指对LINUX系统的参数调优。 A.增加同时打开的文件描述符和网络连接上限在系统运行中，随着接受作业数量的增加... 阅读全文

posted @ 2017-01-10 21:07 tneduts 阅读(2766) 评论(0) 推荐(0)

hortonworks2.5.3 install step log

摘要：1.创建本地YUM源，下载TAR。GZ HDP，HDP－UTILS，AMBARI介质安装HTTPD，在／VAR／WWW／HTML／下创建三个相应的目录，把以上解压的三个目录链接过来在三个目录中执行命令，createrepo ./至此，本地YUM源创建完毕。 cd /etc/yum.repos.d/ 阅读全文

posted @ 2017-01-03 10:58 tneduts 阅读(299) 评论(0) 推荐(0)

hdfs client access the hdfs cluster not in one domain

摘要：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html#Clients_use_Hostnames_when_connecting_to_DataNodes sometimes when you access your hadoop cluster outside the... 阅读全文

posted @ 2016-10-28 14:47 tneduts 阅读(392) 评论(0) 推荐(0)

HADOOP HA切换后出现ＭＳＳＩＮＧ　ＢＬＯＣＫ

摘要：HDFS HA切换后missing block问题分析今天因为调整一个ＮＮ的参数，所以切换一个ＡＣＴＩＶＥ的ＮＮ，发生了ＭＩＳＳＩＮＧ　ＢＬＯＣＫ。怀疑可能是ＥＤＩＴＬＯＧ没有同步完成，可能是误报。找到这http://blog.csdn.net/u011291159/article/detai 阅读全文

posted @ 2016-08-29 15:09 tneduts 阅读(315) 评论(0) 推荐(0)

hadoop.home.dir is not set

摘要：今天遇到一个错误，ＪＡＶＡ堆栈如下：是在获取文件系统对象的时候出错，没有找到环境变量 HADOOP_HOME or hadoop.home.dir ，但是在本地一直没有重现这个问题。这个问题是一个小ＢＵＧ，在调用ＳＨＥＬＬ的时候一个静态初始化造成的，这个ＪＡＲ包是运行在客户端去ＨＤＦＳ拉取数据，阅读全文

posted @ 2016-08-18 09:48 tneduts 阅读(2670) 评论(0) 推荐(0)

hdfs 通过NFSV3 加载至本地目录

摘要：常常会有这种需求,把HDFS的目录MOUNT到本地目录,然后方便使用LINUX下面的命令直接操作. FUSE也可以达到同样的效果,但是配置比较复杂,新的HADOOP版本都建议使用NFS3来完成这个需求. 要点记录, 1. CORE-SITE.XML 修改 <property> <name>hadoo 阅读全文

posted @ 2016-07-22 07:56 tneduts 阅读(362) 评论(0) 推荐(0)

我的空中楼阁

随笔分类 - Hadoop Sample