随笔分类 - 大数据
摘要:Synchronized(this) 锁住该代码块的对象,等访问该对象的线程执行完,其他线程才可以执行。 Synchronized(xxx.class) 锁住该类,所有访问该类的线程,一次只有一个可以执行。 其他 A. 无论synchronized关键字加在方法上还是对象上,如果它作用的对象是非静态的,则它取得的锁是对象;如果synchronized作用的对象是一个静态方法或一个类,则它取...
阅读全文
摘要:对于kafak与sparkstreaming集成后 存在的问题 一。基于receiver的方式在kafka1.0后好像是去取消了 都是高级api 默认是200毫秒接受的数据形成一个block块,设置5s为一个批次 那就是5000/200 为25个分区 1.val kafkaParams = Map( "zookeeper.connect" -> "bigdata.server...
阅读全文
摘要:import java.util import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD...
阅读全文
摘要:hadoop-client依赖很乱 调试很多次cdh版本好多jar没有 用hadoop2.7.3可以 自定义输出流的池子进行流管理 public void writeLog2HDFS(String path, byte[] log) { try { //得到我们的装饰流 FSDataOutputStream ou...
阅读全文
摘要:工作中需求:每天早上定时将数据查询出来只作为excel上传至远程服务器 配置spring的xml文件 客户端上传文件值一个url接口的方法 从Dao层借口返回的list集合数据形成excel
阅读全文
摘要:AuditorDimensionKey.class, Text.class, job, false);
阅读全文
摘要:# list学习 """ """ """ # 1.中括号[]表示 里面可以是任意数据类型元组,列表 li=[1,2,4,990,2.9,"sssss",["sss","aaa"],(1,2)] # 索引取值 print(li[3]) #2. 切片从1至3 从1至倒数第三个 print(li[1:3]) print(li[1:-3]) # 3.循环取值 for l in li : pr...
阅读全文
摘要:hive的复合数据类型如何取值: Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个grou
阅读全文
摘要:object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession .builder() .master("local[2]") .appName("Spark Read Hbase ") ...
阅读全文
摘要: 1)外部数据源 val distFile1 = sc.textFile("data.txt") //本地当前目录下文件 val distFile2 =sc.textFile("hdfs://192.168.121.12:8020/input/data.txt") //HDFS文件 val dis
阅读全文
摘要:storm的基本概念别人总结的, https://blog.csdn.net/pickinfo/article/details/50488226 编程模型最关键最难就是实现局部聚合的业务逻辑聚合类实现Aggregator接口重写方法aggregate,聚合使用存储中间聚合过程状态的类,本地hashmap的去重逻辑还有加入redis后进行的一些去重操作,数据的持久(判断三天内的带播控量) pub...
阅读全文
摘要:mapreducer编程模型是一种八股文的代码逻辑,就以用户行为分析求流存率的作为例子 1.map端来说:必须继承hadoop规定好的mapper类:在读取hbase数据时,已经有现成的接口 TableMapper,只需要规定输出的key和value的类型 public class LoseUserMapper extends TableMapper { //////////省去代码在执行...
阅读全文
摘要:1.连接数据源很多选项:hive mysql Oracle 等所有数据库 2.写上hive2的那个客户端连接,下边会显示出让我装连接的驱动 ,所有jdbc都需要这样 点进去找到windows的下载一键安装即可,后续连接数据可以看到表 使用一个openStree的图层
阅读全文
摘要:日志格式202.108.16.254^A1546795482.600^A/cntv.gif?appId=3&areaId=8213&srcContId=2535575&areaType=1&srcContName=%E5%88%87%E7%89%B9%E9%87%8C%E6%A2%85%E5%BC%80%E4%BA%8C%E5%BA%A6+%E5%8D%B0%E5%BA%A64-1%E5%A4%...
阅读全文
摘要:idea开发必须是把Mapper文件与配置文件放到Resources标记的classpath目录下,eclips好像放到哪都行指定好路径就可以了, maven里面做好配置resources的路径,不然更新依赖 工程结构标记又没了 1.原生使用sqlsessionFcatory去做数据库操作,很麻烦
阅读全文
摘要:split方法在大数据开发中的多用于日志解析及字段key值分割,最近需求中碰到一个问题在 无论怎么分割都会出现数组下标越界问题, 由于前台在sdk中多加了几个字段(测试数据很少,大多为空) ,需要我们进行字段补全插入到mysql中,但项目过于老,2016年项目使用的是spark1.5.2不说,使用j
阅读全文
摘要:1.注册函数,使用using jar方式在hdfs上引用udf库。 $hive>create function formattime as 'com.bigdata.udf.FormatTimeUDF' using jar 'hdfs://hadoop01/app/app-logs-hive-1.0-SNAPSHOT.jar';2.注销函数,只需要删除mysql的hive数据记录即可。 de...
阅读全文
摘要:很简单的sql 用户分析语句 :只要自定义简单的udf函数 获取统计时间createdatms字段的 使用的日历类 add方法 和simpledateformat 将long类型的 定义多个重载方法 获取返回值int类型 或者long类型 进行时间判断即可 getdaybegin(天开始),比如20
阅读全文

浙公网安备 33010602011771号