Wind_LPH

2021年1月1日

摘要： llap开启设置llap_heap_size大小，，不能大于设置的Memory Per Daemon值错误阅读全文

posted @ 2021-01-01 15:30 Wind_LPH 阅读(396) 评论(0) 推荐(0)

2020年12月26日

摘要：排序文件： 3,25,25,35,96,29,19,38,4方法一： 1 package spark.rdd 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 cla 阅读全文

posted @ 2020-12-26 21:19 Wind_LPH 阅读(452) 评论(0) 推荐(0)

2020年12月24日

kylin3.1基于ambari2.7.5部署总结

摘要：环境： Ambari 2.7.5 HDP 3.1 hadoop是3.1版本，hbase是2.0版本。需要部署kylin，从官网下载。一段操作，修改find-hive-conf-dir.sh、find-hadoop-conf-dir.sh和find-hbase-conf-dir.sh脚本，使之能够阅读全文

posted @ 2020-12-24 10:51 Wind_LPH 阅读(765) 评论(0) 推荐(0)

2020年12月21日

presto的Oracle配置

摘要：基础环境，Ambari2.7.5 +HDP 3.1 + Prestodb 0.245 当基于presto官网对connector进行配置，如下方式 connector.name=oracle connection-url=jdbc:oracle:thin:@example.net:1521/ORCL 阅读全文

posted @ 2020-12-21 11:52 Wind_LPH 阅读(1301) 评论(3) 推荐(2)

2020年12月17日

Kafka-LEADER_NOT_AVALIABLE

摘要：环境描述：ambari集群安装完成后，使用jass.conf和jass.properties使用kafka topic报错。首先需要确保的是jass.conf的行末尾不能有空格，否则会报错：Failed to construct kafka producer. 报错kafka kerberos s 阅读全文

posted @ 2020-12-17 14:03 Wind_LPH 阅读(1651) 评论(0) 推荐(0)

2020年12月16日

Kerberos基本使用

摘要：创建用户 kadmin.local addprinc confluent@BIGDATA.COM 或 kadmin.local -q "addprinc confluent@BIGDATA.COM" 导出keytab文件 kadmin.local xst -k /etc/security/keyta 阅读全文

posted @ 2020-12-16 14:53 Wind_LPH 阅读(535) 评论(0) 推荐(0)

2020年11月10日

zookeeper的ACL

摘要：基于上编zookeeper的Kerberos： 1、zookeeper的认证方式可分为world，auth，digest，ip和super。 world表示任何人都可以连接 auth表示需要通过授权 digest是用户密码 2、添加用户并授权 setAcl /node digest:[userna 阅读全文

posted @ 2020-11-10 14:11 Wind_LPH 阅读(157) 评论(0) 推荐(0)

zookeeper的Kerberos连接

摘要：集群以ambari安装的zookeeper为主。和kafka的Kerberos连接类似。配置zookeeper_jaas.conf文件如下。 Client { com.sun.security.auth.module.Krb5LoginModule required useKeyTab=true 阅读全文

posted @ 2020-11-10 10:50 Wind_LPH 阅读(987) 评论(0) 推荐(0)

2020年11月5日

Hive参数优化

摘要： set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.dynamic.partition=true;set hive.auto.convert.join = true;set hive.mapjoin.smalltable.fil 阅读全文

posted @ 2020-11-05 09:55 Wind_LPH 阅读(411) 评论(0) 推荐(0)

带有Kerberos认证的kafka

摘要：参考：https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.5/authentication-with-kerberos/content/kerberos_kafka_consuming_events_or_messages_from_kafka_o 阅读全文

posted @ 2020-11-05 09:49 Wind_LPH 阅读(3299) 评论(0) 推荐(1)

2020年10月22日

hive总结

摘要： 1、hive.mapred.mode=strict 对分区表进行查询必须设置where子句的分区条件 2、创建表引用HIve本身 create table parameter_example ( id string, name string, age int ) partitioned by (ye 阅读全文

posted @ 2020-10-22 22:29 Wind_LPH 阅读(311) 评论(0) 推荐(0)

2020年9月30日

shell 命令

摘要：单节点的任务： #!/bin/bash # 指定目录con_home=/app/confluent-6.0.0 #命令提示usage="Usage: $0 (start|stop|status|restart)" if [ $# -lt 1 ]; then echo $usage exit 1fi 阅读全文

posted @ 2020-09-30 16:49 Wind_LPH 阅读(118) 评论(0) 推荐(0)

2020年9月16日

python-subprocess 返回数据实时更新

摘要：对于shell的命令实时更新 import subprocess cmd = "你的shell命令" res = subprocess.Popen(shell, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT) for lin 阅读全文

posted @ 2020-09-16 14:57 Wind_LPH 阅读(1083) 评论(0) 推荐(0)

2020年7月31日

Spark系列之工具Jupyter

摘要：下载地址：https://www.anaconda.com/products/individual ，需要注册用户配置安装bzip2 yum -y install bzip2 1、bash Anaconda3-2020.07-Linux-x86_64.sh 2、回车通过 3、配置环境变量 expo 阅读全文

posted @ 2020-07-31 17:42 Wind_LPH 阅读(403) 评论(0) 推荐(0)

Spark系列之体系结构

摘要： Spark的体系结构如下图。基本认知入门。数据接口访问层是第一层绿色部分，包含Spark Streming、Spark SQL、MLIB和GraphX。数据核心处理是第二层橙色，主要包含Spark Core。数据的存储集中在第三层天蓝色，以HDFS、Hive、S3等为主。任务调度则集中在第四阅读全文

posted @ 2020-07-31 09:38 Wind_LPH 阅读(472) 评论(0) 推荐(0)

2020年7月30日

Spark系列之分布式数据集-DataFrame

摘要：目录： 1、DF的创建 2、临时表 3、SQL查询 4、RDD到DF的转换 5、DF的API 简介 DataFrame是一种不可变的分布式数据集，数据被组织成指定的列。和数据库中的表类似。以下的spark变量均由SparkSession创建。 1、DataFrame的创建 jsonDf = spa 阅读全文

posted @ 2020-07-30 22:33 Wind_LPH 阅读(454) 评论(0) 推荐(0)

2020年7月28日

Spark系列之弹性数据集-RDD

摘要： RDD不仅是分布式的数据集合，更是Spark的核心。 RDD会跟踪应用每个块的所有转换(日志)，也就是说，当RDD的某个分区数据丢失时会根据日志进行重新计算。 RDD是无Schema的数据结构。 1、RDD的生成 RDD的生成有三种方式， 1) .parallelize() 集合生成 2）外部文件或阅读全文

posted @ 2020-07-28 22:26 Wind_LPH 阅读(213) 评论(0) 推荐(0)

spark系列之基本概念

摘要： Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。 RDD有两组操作，转换(transformation)和行动(actio 阅读全文

posted @ 2020-07-28 21:19 Wind_LPH 阅读(178) 评论(0) 推荐(0)

2020年5月28日

python 数字字典加密非汉字

摘要：简单版特点是，无需借助任何第三方库。 # 加密和解密文件 # 字段内容以 ; 分割 class Crypt(): def __init__(self,line): self.line = line self.list=['','A','B','C','D','E','F','G','H','I', 阅读全文

posted @ 2020-05-28 14:51 Wind_LPH 阅读(379) 评论(0) 推荐(0)

2020年3月23日

MySQL 5.7实现 row_number窗口函数

摘要： SELECT pzrq,pzbh,pzlx,'example-1001','演示账套',id AS vou_id,subjcode,kmmc,zy,jfje,dfje,0,0, if(@pzrq = pz.pzrq AND @pzbh = pz.pzbh and @pzlx = pz.pzlx, @ 阅读全文

posted @ 2020-03-23 15:32 Wind_LPH 阅读(4616) 评论(0) 推荐(0)

凡所向往，皆是虚妄

公告