cctext - 博客园

2019年7月29日

摘要： Map定义：在使用map时，需要先声明，否则结果可能与预期不同，array可以不声明方式1：方式2： Map初始化：与array类似，可以使用括号直接初始化，也可以通过添加的方式来初始化数据，与array不同的是，括号直接初始化时使用的为一个键值对，添加元素时，下标可以不是整数输出Map所阅读全文

posted @ 2019-07-29 23:34 cctext 阅读(34931) 评论(0) 推荐(2)

2019年7月26日

Spark2.x（五十五）：在spark structured streaming下sink file(parquet,csv等)，正常运行一段时间后：清理掉checkpoint，重新启动app，无法sink记录（file）到hdfs。

摘要：场景：在spark structured streaming读取kafka上的topic，然后将统计结果写入到hdfs,hdfs保存目录按照month,day,hour进行分区： 1）程序放到spark上使用yarn开始运行（yarn-client或yarn-cluster），可以正常sink结果阅读全文

posted @ 2019-07-26 00:13 cctext 阅读(2108) 评论(3) 推荐(0)

2019年7月22日

Linux Shell：根据指定的文件列表或 map配置，进行文件位置转移

摘要：读取配置文件，进行文件位置转移在whenb.csv中指定了需要从/home/root/cf/下移除到/home/root/cf_wh/下文件列表，whenb.csv中包含记录如下：具体实现的shell脚本：按照map配置，进行文件上传hdfs 配置map(key[path],value[文件名阅读全文

posted @ 2019-07-22 22:05 cctext 阅读(1271) 评论(0) 推荐(0)

2019年7月18日

Java-Maven（十一）：Maven 项目出现pom.xml错误：Plugin execution not covered by lifecycle configuration: org.apache.maven.plugins:maven-compiler-plugin

摘要： Maven项目出现ERROR： eclipse更新了Maven插件后，让后就出现了以下错误：解决方案1： 1）Window --> Perferences --> Maven --> Lifecycle Mapping 发现目录：E:\work\git\ICOS-DASpark-Project\. 阅读全文

posted @ 2019-07-18 16:49 cctext 阅读(1921) 评论(0) 推荐(0)

Spark2.x（五十四）：在spark structured streaming下测试ds.selectExpr()，当返回列多时出现卡死问题。

摘要：业务需求，有一部分动态字段，需要在程序中动态加载并解析表达式：实现方案1）：在MapFunction、MapPartitionFunction中使用FelEngine进行解析：实现方案2）：采用selectExpr()函数此时动态列dynamicExprLength为10，可以正常输出。 ds 阅读全文

posted @ 2019-07-18 14:22 cctext 阅读(1263) 评论(0) 推荐(0)

2019年7月16日

Linux：读取文件，每行拆分，并比较拆分数组长度

摘要：读取文件，每行拆分，并比较拆分数组长度数字判断一些命令：#-gt是大于#-lt是小于#-eq是等于#-ne是不等于#-ge是大于等于#-le是小于等于阅读全文

posted @ 2019-07-16 10:55 cctext 阅读(666) 评论(0) 推荐(0)

2019年6月28日

Spark（五十三）：Spark RPC初尝试使用

摘要：基本用法主要掌握一点就行： master slave模式运用：driver 就是master，executor就是slave。如果executor要想和driver交互必须拿到driver的EndpointRef，通过driver的EndpointRef来调接口访问。 driver启动时，会在dr 阅读全文

posted @ 2019-06-28 17:47 cctext 阅读(1072) 评论(0) 推荐(0)

2019年6月26日

Spark（五十二）：Spark Scheduler模块之DAGScheduler流程

摘要：导入从一个Job运行过程中来看DAGScheduler是运行在Driver端的，其工作流程如下图：图中涉及到的词汇概念： 1. RDD——Resillient Distributed Dataset 弹性分布式数据集。 2. Operation——作用于RDD的各种操作分为transformat 阅读全文

posted @ 2019-06-26 23:50 cctext 阅读(3461) 评论(2) 推荐(1)

2019年6月25日

Spark（五十一）：Spark On YARN（Yarn-Cluster模式）启动流程源码分析（二）

摘要：上篇《Spark（四十九）：Spark On YARN启动流程源码分析（一）》我们讲到启动SparkContext初始化，ApplicationMaster启动资源中，讲解的内容明显不完整。本章将针对yarn-cluster（--master yarn –deploy-mode cluster）模阅读全文

posted @ 2019-06-25 22:45 cctext 阅读(4379) 评论(0) 推荐(2)

2019年6月16日

在Windows系统下搭建Redis集群

摘要：准备工作需要4个部件：Redis、Ruby语言运行环境、Redis的Ruby驱动redis-xxxx.gem、创建Redis集群的工具redis-trib.rb。使用redis-trib.rb工具来创建Redis集群，由于该文件是用ruby语言写的，所以需要安装Ruby开发环境，以及驱动redis 阅读全文

posted @ 2019-06-16 21:20 cctext 阅读(11900) 评论(3) 推荐(4)

2019年6月14日

Java-Maven（十）：Maven 项目常用plugins

摘要：本文主要总结最近一段时间使用maven时，遇到需要maven plugins的一些简单总结。 1）在Build下重新指定最终打包报名 2）Maven Repository上以外的自定义包引入，以及如何设置才能被打包进来 a）在dependencies下引入lib下的jar b）在maven-comp 阅读全文

posted @ 2019-06-14 09:00 cctext 阅读(7867) 评论(0) 推荐(0)

2019年6月13日

Java-Maven（九）：Maven 项目pom文件引入工程根目录下lib文件夹下的jar包

摘要：由于项目一些特殊需求，pom依赖的包可能是非Maven Repository下的包文件，因此无法自己从网上下载。此时，我们团队git上对该jar使用。 Maven项目pom引入lib下jar包在eclipse project下根下创建一个lib文件夹，将依赖包拷贝到这个lib下。然后，修改Pom 阅读全文

posted @ 2019-06-13 10:15 cctext 阅读(15123) 评论(2) 推荐(1)

2019年6月4日

JVM GC原理

摘要：了解JVM GC原理非常重要，对于系统调优非常有用。如果一个系统频繁发生FULL GC，那么会造成系统响应卡顿，更严重的时候会导致系统崩溃。 JVM的内存空间 JVM的内存空间，从大的层面上来分析包含：新生代空间(Young)和老年代空间（Old）。新生代空间（Young）又被分为2个部分（Eden 阅读全文

posted @ 2019-06-04 20:19 cctext 阅读(14625) 评论(1) 推荐(4)

2019年6月1日

Spark（五十）：使用JvisualVM监控Spark Executor JVM

摘要：引导 Windows环境下JvisulaVM一般存在于安装了JDK的目录${JAVA_HOME}/bin/JvisualVM.exe，它支持（本地和远程）jstatd和JMX两种方式连接远程JVM。 jstatd (Java Virtual Machine jstat Daemon)——监听远程服务阅读全文

posted @ 2019-06-01 18:52 cctext 阅读(2261) 评论(0) 推荐(0)

2019年5月27日

Spark（四十九）：Spark On YARN启动流程源码分析（一）

摘要：引导：该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析。 spark-submit的入口函数一般提交一个spark作业的方式采用spark-submit来提交这个是提交到standalone集群的方式，其中spark-submit内容如下： https:/ 阅读全文

posted @ 2019-05-27 22:55 cctext 阅读(5348) 评论(0) 推荐(1)

2019年5月23日

Spark（四十八）：Spark MetricsSystem信息收集过程分析

摘要： MetricsSystem信息收集过程参考：《Apache Spark源码走读之21 -- WEB UI和Metrics初始化及数据更新过程分析》《Spark Metrics配置详解》《Spark Structrued Streaming源码分析--(四)ProgressReporter每个阅读全文

posted @ 2019-05-23 00:18 cctext 阅读(936) 评论(0) 推荐(0)

2019年5月10日

Spark（四十七）：Spark UI 数据可视化

摘要：导入： 1）Spark Web UI主要依赖于流行的Servlet容器Jetty实现； 2）Spark Web UI(Spark2.3之前)是展示运行状况、资源状态和监控指标的前端，而这些数据都是由度量系统（MetricsSystem）收集来的； 3）Spark Web UI（spark2.3之后）阅读全文

posted @ 2019-05-10 23:27 cctext 阅读(10867) 评论(6) 推荐(2)

2019年5月5日

Spark（四十六）：Spark 内存管理之—OFF_HEAP

摘要：存储级别简介 Spark中RDD提供了多种存储级别，除去使用内存，磁盘等，还有一种是OFF_HEAP，称之为使用JVM堆外内存 https://github.com/apache/spark/blob/branch-2.4/core/src/main/scala/org/apache/spark/ 阅读全文

posted @ 2019-05-05 20:45 cctext 阅读(2630) 评论(1) 推荐(1)

Java中JVM内存结构

摘要： Java中JVM内存结构线程共享区方法区：又名静态成员区域，包含整个程序的 class、static 成员等，类本身的字节码是静态的；它会被所有的线程共享和是全区级别的；属于共享内存区域，存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。 Java 堆 (Heap)：阅读全文

posted @ 2019-05-05 20:15 cctext 阅读(569) 评论(0) 推荐(1)

2019年4月23日

Spark（四十五）：Schema Registry

摘要：很多时候在流数据处理时，我们会将avro格式的数据写入到kafka的topic，但是avro写入到kafka的时候，数据有可能会与版本升级，也就是schema发生变化，此时如果消费端，不知道哪些数据的schema是使用升级前的，哪些数据schema使用升级后，此次消费端一旦就经常会跑出异常，为了避免阅读全文

posted @ 2019-04-23 16:27 cctext 阅读(2121) 评论(0) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

公告