02 2021 档案
摘要:前面一篇讲到streamin读取kafka数据加工处理后写到kafka数据,大数据开发-Spark-开发Streaming处理数据 && 写入Kafka是针对比如推荐领域,实时标签等场景对于实时处理结果放到mysql也是一种常用方式,假设一些车辆调度的地理位置信息处理后写入到mysql 1.说明 数
阅读全文
摘要:算法 - 链表操作题目套路 前面这一篇文章主要讲链表操作时候的实操解决方式,本文从本质讲解链表操作的元信息,学完后,再也不怕链表操作题目了。 1.链表的基本操作 链表的基本操作无外乎插入,删除,遍历 插入的化,要考虑到前驱节点和后继节点,记住下面的伪代码 nex = 当前节点.next 当前节点.n
阅读全文
摘要:Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调 整
阅读全文
摘要:1.为什么是json4s 从json4s的官方描述 At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries have
阅读全文
摘要:1.user ss is currently user by process 3234 问题原因:root --> ss --> root 栈递归一样 解决方式:exit 退出当前到ss再退出到root 然后执行命令即可。 2.列出某目录下的目录而不是文件 参考:ls --https://jingy
阅读全文
摘要:大数据开发--Hbase协处理器案例 1. 需求描述 在社交网站,社交APP上会存储有大量的用户数据以及用户之间的关系数据,比如A用户的好友列表会展示出他所有的好友,现有一张Hbase表,存储就是当前注册用户的好友关系数据,如下 需求 使用Hbase相关API创建一张结构如上的表 删除好友操作实现(
阅读全文
摘要:在日常开发过程中,除了例行调度的任务和直接在开发环境下比如Scripts,开发,很多情况下是shell下直接搞起(小公司一般是这样),看一下常见的linux后台运行和关闭的命令,这里做一个总结,主要包括:fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令等 一、& 加在一个命令的
阅读全文
摘要:前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje
阅读全文
摘要:前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje
阅读全文
摘要:数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根 据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最 终的
阅读全文
摘要:1.Spark Graph简介 GraphX 是 Spark 一个组件,专门用来表示图以及进行图的并行计算。GraphX 通过重新定义了图的抽象概念来拓展了 RDD: 定向多图,其属性附加到每个顶点和边。为了支持图计算, GraphX 公开了一系列基本运算符(比如:mapVertices、mapEd
阅读全文
摘要:1.Spark Streaming简介 Spark Streaming从各种输入源中读取数据,并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时,批次停止增长,时间区间的大小是由批次
阅读全文
摘要:在前面一篇里面,算法-一个经典sql 题和一个Java算法题 大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目,解决连续问题,本文继续总结关于连续性的套路,来自于实际生产项目的问题,本文略去其他不重要信息字段,来从更深地层次解决问题,由于在生产中,常常是理解需求,转换需
阅读全文

浙公网安备 33010602011771号