Fork me on GitHub
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 32 下一页
摘要: 1. Spark数据倾斜问题 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。 例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个 阅读全文
posted @ 2019-04-26 13:28 kris12 阅读(1450) 评论(0) 推荐(0) 编辑
摘要: 1. 常规性能调优 一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 --driver-memory 配置Driver内存(影响不大) 内存大小影响不大 资 阅读全文
posted @ 2019-04-26 08:30 kris12 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 实战 数据导入Hive中全量: 拉链增量:用户、商品表数据量大时用 拉链表动作表 增量城市信息 全量 需求一: 获取点击、下单和支付数量排名前 10 的品类 ①使用累加器: click_category_id,个数 order_category_ids,个数 pay_category_ids,个数 阅读全文
posted @ 2019-04-23 01:44 kris12 阅读(607) 评论(0) 推荐(0) 编辑
摘要: rsync常见错误 错误原因 1> 服务端配置文件中指定的用户和模块指定的目录的属主属组不同 2> 服务端模块指定的目录属组属组没有权限 -rw-r--r--. 1 root root 2010 1月 15 19:38 profile 都是root组和root用户;其他用户是没有权限的;要加sudo 阅读全文
posted @ 2019-04-22 19:48 kris12 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 一些名词概念 以yarn-cluster模式为例源码分析作业提交流程 Spark-submit提交源码解析 执行spark-submit实际上执行的是$SPARK_HOME/spark-class -->执行一个java类 java org.apache.spark.launcher.Main调它的 阅读全文
posted @ 2019-04-18 23:40 kris12 阅读(911) 评论(0) 推荐(0) 编辑
摘要: 从数据处理的方式角度: 流式(Streaming)数据处理; 批量(batch)数据处理; 从数据处理延迟的长短: 实时数据处理: 毫秒级别;(流式处理 != 实时数据处理) 离线数据处理: 小时 or 天级别 1. Spark Streaming Spark Streaming用于流式数据的处理。 阅读全文
posted @ 2019-04-14 17:26 kris12 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 软件通用的快捷键: * 保存:Ctrl + S * 剪切:Ctrl + X * 粘贴:Ctrl + V * 复制:Ctrl + C * 全选:Ctlr + A * 撤销:Ctrl + Z * 反撤销:Ctrl + Y * 查找与替换:Ctrl + F (find) IDEA alt+enter 提示 阅读全文
posted @ 2019-04-11 16:46 kris12 阅读(1219) 评论(0) 推荐(0) 编辑
摘要: 1. Hive and SparkSQL sparkSQL的前身是Shark。 Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了 提高SQL-on-Hadoop的效率,大量的SQL- 阅读全文
posted @ 2019-04-11 14:04 kris12 阅读(955) 评论(0) 推荐(0) 编辑
摘要: Spark中三大数据结构: RDD; 广播变量: 分布式只读共享变量; 累加器:分布式只写共享变量; 线程和进程之间 1. RDD 序列化 1) 闭包检查 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor 端执行。那么在 scala 的函数式编程中 阅读全文
posted @ 2019-04-10 08:45 kris12 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 类比java中的泛型: 上界(协变)、下界(逆变) scala中泛型采用中括号声明 泛型上界 泛型下界 协变(+)(也就是上限上界):这个类型往它的子类中去找,多态的感觉;从类的关系往回推叫逆变(-)(也就是下限下界);它们主要在类声明时使用; 阅读全文
posted @ 2019-04-07 00:08 kris12 阅读(624) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 32 下一页
levels of contents