大数据从业者FelixZh

2018年9月21日

摘要：前言最新开始捣鼓flink，fucking the code之前，编译是第一步。编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方阅读全文

posted @ 2018-09-21 11:09 大数据从业者FelixZh 阅读(3760) 评论(1) 推荐(0)

2018年9月19日

TableExistsException: hbase:namespace

摘要：解决：zookeeper还保留着上一次的Hbase设置，所以造成了冲突。删除zookeeper信息，重启之后就没问题了 1.切换到zookeeper的bin目录； 2.执行$sh zkCli.sh 1.切换到zookeeper的bin目录； 2.执行$sh zkCli.sh 输入‘ls /’ 4.输阅读全文

posted @ 2018-09-19 20:03 大数据从业者FelixZh 阅读(677) 评论(0) 推荐(0)

Operation category READ is not supported in state standby

摘要： Namenode 开启HA之后,由于zookeeper异常，出现脑裂现象执行 standby standby 两个互为HA的namenode节点均处于standby 状态，随后执行强行手工将namenode1状态转换为active PS： serverID即namenodeID，可以访问http 阅读全文

posted @ 2018-09-19 19:56 大数据从业者FelixZh 阅读(811) 评论(0) 推荐(0)

Ambari Metrics 详解

摘要： Ambari Metrics 原理 Ambari Metrics System 简称为 AMS，它主要为系统管理员提供了集群性能的监察功能。Metrics 一般分为 Cluster、Host 以及 Service 三个层级。 Cluster 和 Host 级主要负责监察集群机器相关的性能，而 Ser 阅读全文

posted @ 2018-09-19 19:29 大数据从业者FelixZh 阅读(8743) 评论(0) 推荐(1)

深入Ambari Metrics 机制分析

摘要： 0.简介 Ambari作为一款针对大数据平台的运维管理工具，提供了集群的创建，管理，监控，升级等多项功能，目前在业界已经得到广泛使用。 Ambari指标系统（ Ambari Metrics System，以下简称AMS）主要负责监控平台各类服务及主机的运行情况，提供各类服务及主机的相关指标，从而达到阅读全文

posted @ 2018-09-19 17:24 大数据从业者FelixZh 阅读(4639) 评论(0) 推荐(0)

2018年9月14日

Spark-RDD之Partition源码分析

摘要：概要 Spark RDD主要由Dependency、Partition、Partitioner组成，Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了阅读全文

posted @ 2018-09-14 08:48 大数据从业者FelixZh 阅读(1399) 评论(0) 推荐(1)

spark-RDD源码分析

摘要： http://stark-summer.iteye.com/blog/2178096 RDD的核心方法：首先看一下getPartitions方法的源码： getPartitions返回的是一系列partitions的集合，即一个Partition类型的数组我们就想进入HadoopRDD实现： 1 阅读全文

posted @ 2018-09-14 08:42 大数据从业者FelixZh 阅读(835) 评论(0) 推荐(0)

2018年9月12日

Redis内存优化memory-optimization

摘要： https://redis.io/topics/memory-optimization 官方文档一、特殊编码：自从Redis 2.2之后，很多数据类型都可以通过特殊编码的方式来进行存储空间的优化。其中，Hash、List和由Integer组成的Sets都可以通过该方式来优化存储结构，以便占用更少阅读全文

posted @ 2018-09-12 16:53 大数据从业者FelixZh 阅读(1030) 评论(0) 推荐(0)

2018年9月6日

DeveloperGuide Hive UDAF

摘要： Writing GenericUDAFs: A Tutorial User-Defined Aggregation Functions (UDAFs) are an excellent way to integrate advanced data-processing into Hive. Hive 阅读全文

posted @ 2018-09-06 20:34 大数据从业者FelixZh 阅读(740) 评论(0) 推荐(0)

DeveloperGuide Hive UDTF

摘要： Writing UDTF's Writing UDTF's GenericUDTF Interface GenericUDTF Interface A custom UDTF can be created by extending the GenericUDTF abstract class and 阅读全文

posted @ 2018-09-06 20:32 大数据从业者FelixZh 阅读(426) 评论(0) 推荐(0)

DeveloperGuide Hive UDF

摘要： Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more methods named evaluate. package com.example.hive.udf; im 阅读全文

posted @ 2018-09-06 20:30 大数据从业者FelixZh 阅读(345) 评论(0) 推荐(0)

2018年8月24日

Idea+Maven创建scala项目

摘要： 1.选择Create New Project 2.如下图选择，然后下一步 3.一直Next，填写groupID，artifactid，projectName之后等待IDEA初始化。 4.IDEA完成初始化之后，点击左上角的自动导入。 5.删除下面红框类，不必要的内容避免报错： 6.修改pom.xml 阅读全文

posted @ 2018-08-24 14:37 大数据从业者FelixZh 阅读(2782) 评论(0) 推荐(0)

使用idea搭建Scala 项目

摘要：主要内容 1. Intellij IDEA开发环境简介具体介绍请参见：http://baike.baidu.com/link?url=SBY93H3SPkmcmIOmZ8H60O1k4iVLgOmdqoKdGp9xHtU-Pbdsq2cpn75ZPZPWAJxeUlwr0ravraQzOckh77 阅读全文

posted @ 2018-08-24 14:36 大数据从业者FelixZh 阅读(2702) 评论(0) 推荐(0)

APACHE SPARK 2.0 API IMPROVEMENTS: RDD, DATAFRAME, DATASET AND SQL

摘要： What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If you are just getting started with Apache Spark, the 2.0 rele 阅读全文

posted @ 2018-08-24 08:37 大数据从业者FelixZh 阅读(301) 评论(0) 推荐(0)

There Are Now 3 Apache Spark APIs. Here’s How to Choose the Right One

摘要： See Apache Spark 2.0 API Improvements: RDD, DataFrame, DataSet and SQL here. Apache Spark is evolving at a rapid pace, including changes and additions 阅读全文

posted @ 2018-08-24 08:36 大数据从业者FelixZh 阅读(290) 评论(0) 推荐(0)

2018年8月23日

Java Api Consumer 连接启用Kerberos认证的Kafka

摘要： java程序连接到一个需要Kerberos认证的kafka集群上，消费生产者生产的信息，kafka版本是2.10-0.10.0.1； Java程序以maven构建，（怎么构建maven工程，可去问下度娘：“maven工程入门示例”）先上pom.xml文件然后是Jave代码，先上图，一一解释图中标阅读全文

posted @ 2018-08-23 20:33 大数据从业者FelixZh 阅读(6504) 评论(0) 推荐(0)

kafka实战kerberos

摘要： more /etc/krb5.conf kadmin.local klist -t -e -k /var/kerberos/krb5kdc/kafka.keytab more zookeeper_jaas.conf more kafka_server_jaas.conf more config/se 阅读全文

posted @ 2018-08-23 20:31 大数据从业者FelixZh 阅读(2724) 评论(0) 推荐(0)

USING KERBEROS

摘要： https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/managing_smart_cards/using_kerberos#Additional_Resources Maintaining sys 阅读全文

posted @ 2018-08-23 20:26 大数据从业者FelixZh 阅读(513) 评论(0) 推荐(0)

KERBEROS PROTOCOL TUTORIAL

摘要： KERBEROS PROTOCOL TUTORIAL This tutorial was written by Fulvio Ricciardi and is reprinted here with his permission. Mr. Ricciardi works at the Nationa 阅读全文

posted @ 2018-08-23 20:20 大数据从业者FelixZh 阅读(441) 评论(0) 推荐(0)

Ambari——大数据平台的搭建利器之进阶篇

摘要：前言本文适合已经初步了解 Ambari 的读者。对 Ambari 的基础知识，以及 Ambari 的安装步骤还不清楚的读者，可以先阅读基础篇文章《Ambari——大数据平台的搭建利器》。 Ambari 的现状目前 Apache Ambari 的最高版本是 2.0.1，最高的 Stack 版本是阅读全文

posted @ 2018-08-23 19:48 大数据从业者FelixZh 阅读(1063) 评论(0) 推荐(0)

Ambari——大数据平台的搭建利器

摘要： Ambari 是什么 Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.0.1，未来不久将发布 2.1 版本。就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但阅读全文

posted @ 2018-08-23 19:47 大数据从业者FelixZh 阅读(558) 评论(0) 推荐(0)

ldap + kerberos 整合

摘要：第一部分：ldap1. 安装ldap 2. 配置ldap 说明：1. rootpw 后面的密码是由命令 slappasswd -s 123456 生成2. 证书使用命令生成：openssl req -newkey rsa:1024 -x509 -nodes -out server.pem -keyo 阅读全文

posted @ 2018-08-23 19:29 大数据从业者FelixZh 阅读(1095) 评论(0) 推荐(0)

Ambari与Kerberos 集成

摘要： Kerberos 介绍 Kerberos 是一个网络认证的框架协议，其设计的初衷便是通过密钥系统为 Client 和 Server 应用程序之间提供强大的认证服务。在使用 Kerberos 认证的集群中，Client 不会直接和 Server 进行认证，而是通过 KDC（Key Distributi 阅读全文

posted @ 2018-08-23 19:15 大数据从业者FelixZh 阅读(3642) 评论(0) 推荐(0)

2018年8月15日

在 Xshell 中使用 hbase shell 进入后无法删除

摘要：在 Xshell 中使用 hbase shell 进入后无法删除问题：在hbase shell下，误输入的指令不能使用backspace和delete删除，使用过的人都知道，这是有多坑，有多苦恼！ ok 下面给出解决办法！很简单，一步到位！！进入到XShell 文件 --> 属性 --> 阅读全文

posted @ 2018-08-15 15:35 大数据从业者FelixZh 阅读(525) 评论(0) 推荐(0)

2018年7月16日

使用superlance插件增强supervisor的监控能力

摘要： supervisor与superlance简介 supervisor是一款用python编写的进程监控、进程守护和进程管理的工具，可以工作在各种UNIX-like的操作系统上，通过简单的配置就可以启动、监控和管理大量的进程，并且可以守护这些进程的运行，同时其还提供了一套自带的事件机制与XML-RPC 阅读全文

posted @ 2018-07-16 13:46 大数据从业者FelixZh 阅读(2096) 评论(0) 推荐(0)

Kafka到Hdfs的数据Pipeline整理

摘要：找时间总结整理了下数据从Kafka到Hdfs的一些pipeline，如下 1> Kafka -> Flume –> Hadoop Hdfs 常用方案,基于配置,需要注意hdfs小文件性能等问题. GitHub地址: https://github.com/apache/flume 2> Kafka - 阅读全文

posted @ 2018-07-16 13:42 大数据从业者FelixZh 阅读(843) 评论(0) 推荐(0)

2018年7月4日

supervisor management kafka zookeeper

摘要： # cat kafka.ini [program:kafka] command=/usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties user=root autostart=true autorestart=true startsecs=3 # cat zookeeper.i... 阅读全文

posted @ 2018-07-04 18:35 大数据从业者FelixZh 阅读(1327) 评论(0) 推荐(1)

Installing Supervisor and Superlance on CentOS

摘要： Installing Supervisor1 and Superlance2 on CentOS/RHEL/Fedora can be a little tricky, as the versions of those packages included in the main repositori 阅读全文

posted @ 2018-07-04 18:20 大数据从业者FelixZh 阅读(287) 评论(0) 推荐(0)

Hive:ORC File Format存储格式详解

摘要： ORC File，它的全名是Optimized Row Columnar (ORC) file，其实就是对RCFile做了一些优化。据官方文档介绍，这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处阅读全文

posted @ 2018-07-04 17:26 大数据从业者FelixZh 阅读(4792) 评论(0) 推荐(0)

2018年6月28日

tmpfs使用探讨

摘要：一、什么是tmpfs？ tmpfs是一种基于内存的文件系统，它和虚拟磁盘ramdisk比较类似，但不完全相同，和ramdisk一样，tmpfs可以使用RAM，但它也可以使用swap分区来存储。而且传统的ramdisk是个块设备，要用mkfs来格式化它，才能真正地使用它；而tmpfs是一个文件系阅读全文

posted @ 2018-06-28 16:43 大数据从业者FelixZh 阅读(1586) 评论(0) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告