会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yy
基础才是编程人员应该深入研究的问题,警告自己问题解决不了时,多从运行原理底层研究后再考虑方案。
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
···
33
下一页
2019年7月29日
Linux Shell:Map的用法
摘要: Map定义: 在使用map时,需要先声明,否则结果可能与预期不同,array可以不声明 方式1: 方式2: Map初始化: 与array类似,可以使用括号直接初始化,也可以通过添加的方式来初始化数据,与array不同的是,括号直接初始化时使用的为一个键值对,添加元素时,下标可以不是整数 输出Map所
阅读全文
posted @ 2019-07-29 23:34 cctext
阅读(34659)
评论(0)
推荐(2)
2019年7月26日
Spark2.x(五十五):在spark structured streaming下sink file(parquet,csv等),正常运行一段时间后:清理掉checkpoint,重新启动app,无法sink记录(file)到hdfs。
摘要: 场景: 在spark structured streaming读取kafka上的topic,然后将统计结果写入到hdfs,hdfs保存目录按照month,day,hour进行分区: 1)程序放到spark上使用yarn开始运行(yarn-client或yarn-cluster),可以正常sink结果
阅读全文
posted @ 2019-07-26 00:13 cctext
阅读(2082)
评论(3)
推荐(0)
2019年7月22日
Linux Shell:根据指定的文件列表 或 map配置,进行文件位置转移
摘要: 读取配置文件,进行文件位置转移 在whenb.csv中指定了需要从/home/root/cf/下移除到/home/root/cf_wh/下文件列表,whenb.csv中包含记录如下: 具体实现的shell脚本: 按照map配置,进行文件上传hdfs 配置map(key[path],value[文件名
阅读全文
posted @ 2019-07-22 22:05 cctext
阅读(1253)
评论(0)
推荐(0)
2019年7月18日
Java-Maven(十一):Maven 项目出现pom.xml错误:Plugin execution not covered by lifecycle configuration: org.apache.maven.plugins:maven-compiler-plugin
摘要: Maven项目出现ERROR: eclipse更新了Maven插件后,让后就出现了以下错误: 解决方案1: 1)Window --> Perferences --> Maven --> Lifecycle Mapping 发现目录:E:\work\git\ICOS-DASpark-Project\.
阅读全文
posted @ 2019-07-18 16:49 cctext
阅读(1895)
评论(0)
推荐(0)
Spark2.x(五十四):在spark structured streaming下测试ds.selectExpr(),当返回列多时出现卡死问题。
摘要: 业务需求,有一部分动态字段,需要在程序中动态加载并解析表达式: 实现方案1):在MapFunction、MapPartitionFunction中使用FelEngine进行解析: 实现方案2):采用selectExpr()函数 此时动态列dynamicExprLength为10,可以正常输出。 ds
阅读全文
posted @ 2019-07-18 14:22 cctext
阅读(1229)
评论(0)
推荐(0)
2019年7月16日
Linux:读取文件,每行拆分,并比较拆分数组长度
摘要: 读取文件,每行拆分,并比较拆分数组长度 数字判断一些命令:#-gt是大于#-lt是小于#-eq是等于#-ne是不等于#-ge是大于等于#-le是小于等于
阅读全文
posted @ 2019-07-16 10:55 cctext
阅读(632)
评论(0)
推荐(0)
2019年6月28日
Spark(五十三):Spark RPC初尝试使用
摘要: 基本用法主要掌握一点就行: master slave模式运用:driver 就是master,executor就是slave。 如果executor要想和driver交互必须拿到driver的EndpointRef,通过driver的EndpointRef来调接口访问。 driver启动时,会在dr
阅读全文
posted @ 2019-06-28 17:47 cctext
阅读(1047)
评论(0)
推荐(0)
2019年6月26日
Spark(五十二):Spark Scheduler模块之DAGScheduler流程
摘要: 导入 从一个Job运行过程中来看DAGScheduler是运行在Driver端的,其工作流程如下图: 图中涉及到的词汇概念: 1. RDD——Resillient Distributed Dataset 弹性分布式数据集。 2. Operation——作用于RDD的各种操作分为transformat
阅读全文
posted @ 2019-06-26 23:50 cctext
阅读(3391)
评论(2)
推荐(1)
2019年6月25日
Spark(五十一):Spark On YARN(Yarn-Cluster模式)启动流程源码分析(二)
摘要: 上篇《Spark(四十九):Spark On YARN启动流程源码分析(一)》我们讲到启动SparkContext初始化,ApplicationMaster启动资源中,讲解的内容明显不完整。 本章将针对yarn-cluster(--master yarn –deploy-mode cluster)模
阅读全文
posted @ 2019-06-25 22:45 cctext
阅读(4330)
评论(0)
推荐(2)
2019年6月16日
在Windows系统下搭建Redis集群
摘要: 准备工作 需要4个部件:Redis、Ruby语言运行环境、Redis的Ruby驱动redis-xxxx.gem、创建Redis集群的工具redis-trib.rb。使用redis-trib.rb工具来创建Redis集群,由于该文件是用ruby语言写的,所以需要安装Ruby开发环境,以及驱动redis
阅读全文
posted @ 2019-06-16 21:20 cctext
阅读(11857)
评论(3)
推荐(4)
2019年6月14日
Java-Maven(十):Maven 项目常用plugins
摘要: 本文主要总结最近一段时间使用maven时,遇到需要maven plugins的一些简单总结。 1)在Build下重新指定最终打包报名 2)Maven Repository上以外的自定义包引入,以及如何设置才能被打包进来 a)在dependencies下引入lib下的jar b)在maven-comp
阅读全文
posted @ 2019-06-14 09:00 cctext
阅读(7846)
评论(0)
推荐(0)
2019年6月13日
Java-Maven(九):Maven 项目pom文件引入工程根目录下lib文件夹下的jar包
摘要: 由于项目一些特殊需求,pom依赖的包可能是非Maven Repository下的包文件,因此无法自己从网上下载。此时,我们团队git上对该jar使用。 Maven项目pom引入lib下jar包 在eclipse project下根下创建一个lib文件夹,将依赖包拷贝到这个lib下。 然后,修改Pom
阅读全文
posted @ 2019-06-13 10:15 cctext
阅读(15070)
评论(2)
推荐(1)
2019年6月4日
JVM GC原理
摘要: 了解JVM GC原理非常重要,对于系统调优非常有用。如果一个系统频繁发生FULL GC,那么会造成系统响应卡顿,更严重的时候会导致系统崩溃。 JVM的内存空间 JVM的内存空间,从大的层面上来分析包含:新生代空间(Young)和老年代空间(Old)。新生代空间(Young)又被分为2个部分(Eden
阅读全文
posted @ 2019-06-04 20:19 cctext
阅读(14576)
评论(1)
推荐(4)
2019年6月1日
Spark(五十):使用JvisualVM监控Spark Executor JVM
摘要: 引导 Windows环境下JvisulaVM一般存在于安装了JDK的目录${JAVA_HOME}/bin/JvisualVM.exe,它支持(本地和远程)jstatd和JMX两种方式连接远程JVM。 jstatd (Java Virtual Machine jstat Daemon)——监听远程服务
阅读全文
posted @ 2019-06-01 18:52 cctext
阅读(2240)
评论(0)
推荐(0)
2019年5月27日
Spark(四十九):Spark On YARN启动流程源码分析(一)
摘要: 引导: 该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析。 spark-submit的入口函数 一般提交一个spark作业的方式采用spark-submit来提交 这个是提交到standalone集群的方式,其中spark-submit内容如下: https:/
阅读全文
posted @ 2019-05-27 22:55 cctext
阅读(5222)
评论(0)
推荐(1)
2019年5月23日
Spark(四十八):Spark MetricsSystem信息收集过程分析
摘要: MetricsSystem信息收集过程 参考: 《Apache Spark源码走读之21 -- WEB UI和Metrics初始化及数据更新过程分析》 《Spark Metrics配置详解》 《Spark Structrued Streaming源码分析--(四)ProgressReporter每个
阅读全文
posted @ 2019-05-23 00:18 cctext
阅读(915)
评论(0)
推荐(0)
2019年5月10日
Spark(四十七):Spark UI 数据可视化
摘要: 导入: 1)Spark Web UI主要依赖于流行的Servlet容器Jetty实现; 2)Spark Web UI(Spark2.3之前)是展示运行状况、资源状态和监控指标的前端,而这些数据都是由度量系统(MetricsSystem)收集来的; 3)Spark Web UI(spark2.3之后)
阅读全文
posted @ 2019-05-10 23:27 cctext
阅读(10783)
评论(6)
推荐(2)
2019年5月5日
Spark(四十六):Spark 内存管理之—OFF_HEAP
摘要: 存储级别简介 Spark中RDD提供了多种存储级别,除去使用内存,磁盘等,还有一种是OFF_HEAP,称之为 使用JVM堆外内存 https://github.com/apache/spark/blob/branch-2.4/core/src/main/scala/org/apache/spark/
阅读全文
posted @ 2019-05-05 20:45 cctext
阅读(2555)
评论(1)
推荐(1)
Java中JVM内存结构
摘要: Java中JVM内存结构 线程共享区 方法区: 又名静态成员区域,包含整个程序的 class、static 成员等,类本身的字节码是静态的;它会被所有的线程共享和是全区级别的; 属于共享内存区域,存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。 Java 堆 (Heap):
阅读全文
posted @ 2019-05-05 20:15 cctext
阅读(546)
评论(0)
推荐(1)
2019年4月23日
Spark(四十五):Schema Registry
摘要: 很多时候在流数据处理时,我们会将avro格式的数据写入到kafka的topic,但是avro写入到kafka的时候,数据有可能会与版本升级,也就是schema发生变化,此时如果消费端,不知道哪些数据的schema是使用升级前的,哪些数据schema使用升级后,此次消费端一旦就经常会跑出异常,为了避免
阅读全文
posted @ 2019-04-23 16:27 cctext
阅读(2076)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
33
下一页
公告