摘要:
前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方
阅读全文
posted @ 2018-09-21 11:09
大数据从业者FelixZh
阅读(3751)
推荐(0)
摘要:
解决:zookeeper还保留着上一次的Hbase设置,所以造成了冲突。删除zookeeper信息,重启之后就没问题了 1.切换到zookeeper的bin目录; 2.执行$sh zkCli.sh 1.切换到zookeeper的bin目录; 2.执行$sh zkCli.sh 输入‘ls /’ 4.输
阅读全文
posted @ 2018-09-19 20:03
大数据从业者FelixZh
阅读(670)
推荐(0)
摘要:
Namenode 开启HA之后,由于zookeeper异常,出现脑裂现象 执行 standby standby 两个互为HA的namenode节点均处于standby 状态,随后执行 强行手工将namenode1状态转换为active PS: serverID即namenodeID,可以访问http
阅读全文
posted @ 2018-09-19 19:56
大数据从业者FelixZh
阅读(801)
推荐(0)
摘要:
Ambari Metrics 原理 Ambari Metrics System 简称为 AMS,它主要为系统管理员提供了集群性能的监察功能。Metrics 一般分为 Cluster、Host 以及 Service 三个层级。 Cluster 和 Host 级主要负责监察集群机器相关的性能,而 Ser
阅读全文
posted @ 2018-09-19 19:29
大数据从业者FelixZh
阅读(8729)
推荐(1)
摘要:
0.简介 Ambari作为一款针对大数据平台的运维管理工具,提供了集群的创建,管理,监控,升级等多项功能,目前在业界已经得到广泛使用。 Ambari指标系统( Ambari Metrics System,以下简称AMS)主要负责监控平台各类服务及主机的运行情况,提供各类服务及主机的相关指标,从而达到
阅读全文
posted @ 2018-09-19 17:24
大数据从业者FelixZh
阅读(4608)
推荐(0)
摘要:
概要 Spark RDD主要由Dependency、Partition、Partitioner组成,Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了
阅读全文
posted @ 2018-09-14 08:48
大数据从业者FelixZh
阅读(1393)
推荐(1)
摘要:
http://stark-summer.iteye.com/blog/2178096 RDD的核心方法: 首先看一下getPartitions方法的源码: getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组 我们就想进入HadoopRDD实现: 1
阅读全文
posted @ 2018-09-14 08:42
大数据从业者FelixZh
阅读(833)
推荐(0)
摘要:
https://redis.io/topics/memory-optimization 官方文档 一、特殊编码: 自从Redis 2.2之后,很多数据类型都可以通过特殊编码的方式来进行存储空间的优化。其中,Hash、List和由Integer组成的Sets都可以通过该方式来优化存储结构,以便占用更少
阅读全文
posted @ 2018-09-12 16:53
大数据从业者FelixZh
阅读(1025)
推荐(0)
摘要:
Writing GenericUDAFs: A Tutorial User-Defined Aggregation Functions (UDAFs) are an excellent way to integrate advanced data-processing into Hive. Hive
阅读全文
posted @ 2018-09-06 20:34
大数据从业者FelixZh
阅读(733)
推荐(0)
摘要:
Writing UDTF's Writing UDTF's GenericUDTF Interface GenericUDTF Interface A custom UDTF can be created by extending the GenericUDTF abstract class and
阅读全文
posted @ 2018-09-06 20:32
大数据从业者FelixZh
阅读(422)
推荐(0)
摘要:
Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more methods named evaluate. package com.example.hive.udf; im
阅读全文
posted @ 2018-09-06 20:30
大数据从业者FelixZh
阅读(342)
推荐(0)
摘要:
1.选择Create New Project 2.如下图选择,然后下一步 3.一直Next,填写groupID,artifactid,projectName之后等待IDEA初始化。 4.IDEA完成初始化之后,点击左上角的自动导入。 5.删除下面红框类,不必要的内容避免报错: 6.修改pom.xml
阅读全文
posted @ 2018-08-24 14:37
大数据从业者FelixZh
阅读(2780)
推荐(0)
摘要:
主要内容 1. Intellij IDEA开发环境简介 具体介绍请参见:http://baike.baidu.com/link?url=SBY93H3SPkmcmIOmZ8H60O1k4iVLgOmdqoKdGp9xHtU-Pbdsq2cpn75ZPZPWAJxeUlwr0ravraQzOckh77
阅读全文
posted @ 2018-08-24 14:36
大数据从业者FelixZh
阅读(2699)
推荐(0)
摘要:
What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If you are just getting started with Apache Spark, the 2.0 rele
阅读全文
posted @ 2018-08-24 08:37
大数据从业者FelixZh
阅读(297)
推荐(0)
摘要:
See Apache Spark 2.0 API Improvements: RDD, DataFrame, DataSet and SQL here. Apache Spark is evolving at a rapid pace, including changes and additions
阅读全文
posted @ 2018-08-24 08:36
大数据从业者FelixZh
阅读(286)
推荐(0)
摘要:
java程序连接到一个需要Kerberos认证的kafka集群上,消费生产者生产的信息,kafka版本是2.10-0.10.0.1; Java程序以maven构建,(怎么构建maven工程,可去问下度娘:“maven工程入门示例”) 先上pom.xml文件 然后是Jave代码,先上图,一一解释图中标
阅读全文
posted @ 2018-08-23 20:33
大数据从业者FelixZh
阅读(6495)
推荐(0)
摘要:
more /etc/krb5.conf kadmin.local klist -t -e -k /var/kerberos/krb5kdc/kafka.keytab more zookeeper_jaas.conf more kafka_server_jaas.conf more config/se
阅读全文
posted @ 2018-08-23 20:31
大数据从业者FelixZh
阅读(2718)
推荐(0)
摘要:
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/managing_smart_cards/using_kerberos#Additional_Resources Maintaining sys
阅读全文
posted @ 2018-08-23 20:26
大数据从业者FelixZh
阅读(510)
推荐(0)
摘要:
KERBEROS PROTOCOL TUTORIAL This tutorial was written by Fulvio Ricciardi and is reprinted here with his permission. Mr. Ricciardi works at the Nationa
阅读全文
posted @ 2018-08-23 20:20
大数据从业者FelixZh
阅读(438)
推荐(0)
摘要:
前言 本文适合已经初步了解 Ambari 的读者。对 Ambari 的基础知识,以及 Ambari 的安装步骤还不清楚的读者,可以先阅读基础篇文章《Ambari——大数据平台的搭建利器》。 Ambari 的现状 目前 Apache Ambari 的最高版本是 2.0.1,最高的 Stack 版本是
阅读全文
posted @ 2018-08-23 19:48
大数据从业者FelixZh
阅读(1053)
推荐(0)
摘要:
Ambari 是什么 Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但
阅读全文
posted @ 2018-08-23 19:47
大数据从业者FelixZh
阅读(553)
推荐(0)
摘要:
第一部分:ldap1. 安装ldap 2. 配置ldap 说明:1. rootpw 后面的密码是由命令 slappasswd -s 123456 生成2. 证书使用命令生成:openssl req -newkey rsa:1024 -x509 -nodes -out server.pem -keyo
阅读全文
posted @ 2018-08-23 19:29
大数据从业者FelixZh
阅读(1076)
推荐(0)
摘要:
Kerberos 介绍 Kerberos 是一个网络认证的框架协议,其设计的初衷便是通过密钥系统为 Client 和 Server 应用程序之间提供强大的认证服务。在使用 Kerberos 认证的集群中,Client 不会直接和 Server 进行认证,而是通过 KDC(Key Distributi
阅读全文
posted @ 2018-08-23 19:15
大数据从业者FelixZh
阅读(3627)
推荐(0)
摘要:
在 Xshell 中 使用 hbase shell 进入后 无法删除 问题: 在hbase shell下,误输入的指令不能使用backspace和delete删除,使用过的人都知道,这是有多坑,有多苦恼! ok 下面给出解决办法! 很简单,一步到位!! 进入到XShell 文件 --> 属性 -->
阅读全文
posted @ 2018-08-15 15:35
大数据从业者FelixZh
阅读(521)
推荐(0)
摘要:
supervisor与superlance简介 supervisor是一款用python编写的进程监控、进程守护和进程管理的工具,可以工作在各种UNIX-like的操作系统上,通过简单的配置就可以启动、监控和管理大量的进程,并且可以守护这些进程的运行,同时其还提供了一套自带的事件机制与XML-RPC
阅读全文
posted @ 2018-07-16 13:46
大数据从业者FelixZh
阅读(2092)
推荐(0)
摘要:
找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Kafka -> Flume –> Hadoop Hdfs 常用方案,基于配置,需要注意hdfs小文件性能等问题. GitHub地址: https://github.com/apache/flume 2> Kafka -
阅读全文
posted @ 2018-07-16 13:42
大数据从业者FelixZh
阅读(837)
推荐(0)
摘要:
# cat kafka.ini [program:kafka] command=/usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties user=root autostart=true autorestart=true startsecs=3 # cat zookeeper.i...
阅读全文
posted @ 2018-07-04 18:35
大数据从业者FelixZh
阅读(1323)
推荐(1)
摘要:
Installing Supervisor1 and Superlance2 on CentOS/RHEL/Fedora can be a little tricky, as the versions of those packages included in the main repositori
阅读全文
posted @ 2018-07-04 18:20
大数据从业者FelixZh
阅读(284)
推荐(0)
摘要:
ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。 据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。 运用ORC File可以提高Hive的读、写以及处
阅读全文
posted @ 2018-07-04 17:26
大数据从业者FelixZh
阅读(4784)
推荐(0)
摘要:
一、 什么是tmpfs? tmpfs是一种基于内存的文件系统,它和虚拟磁盘ramdisk比较类似,但不完全相同,和ramdisk一样,tmpfs可以使用RAM,但它也可以使用swap分区来存储。 而且传统的ramdisk是个块设备,要用mkfs来格式化它,才能真正地使用它; 而tmpfs是一个文件系
阅读全文
posted @ 2018-06-28 16:43
大数据从业者FelixZh
阅读(1568)
推荐(0)