大数据 - 随笔分类(第2页) - 夜半钟声到客船

笔记01

摘要：Synchronized(this) 锁住该代码块的对象，等访问该对象的线程执行完，其他线程才可以执行。 Synchronized(xxx.class) 锁住该类，所有访问该类的线程，一次只有一个可以执行。其他 A. 无论synchronized关键字加在方法上还是对象上，如果它作用的对象是非静态的，则它取得的锁是对象；如果synchronized作用的对象是一个静态方法或一个类，则它取... 阅读全文

posted @ 2019-03-13 22:02 夜半钟声到客船阅读(148) 评论(0) 推荐(0)

笔记很早东西日常的一些复制粘贴怕忘了

摘要：对于kafak与sparkstreaming集成后存在的问题一。基于receiver的方式在kafka1.0后好像是去取消了都是高级api 默认是200毫秒接受的数据形成一个block块，设置5s为一个批次那就是5000/200 为25个分区 1.val kafkaParams = Map( "zookeeper.connect" -> "bigdata.server... 阅读全文

posted @ 2019-03-07 23:51 夜半钟声到客船阅读(358) 评论(0) 推荐(0)

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题

摘要：import java.util import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD... 阅读全文

posted @ 2019-03-07 23:47 夜半钟声到客船阅读(700) 评论(0) 推荐(0)

日常的一些新的发现

摘要：一个加载配置文件就可以获取值的jar包阅读全文

posted @ 2019-03-05 13:38 夜半钟声到客船阅读(185) 评论(0) 推荐(0)

kafka消费者实时消费数据存入hdfs java scalca 代码

摘要：hadoop-client依赖很乱调试很多次cdh版本好多jar没有用hadoop2.7.3可以自定义输出流的池子进行流管理 public void writeLog2HDFS(String path, byte[] log) { try { //得到我们的装饰流 FSDataOutputStream ou... 阅读全文

posted @ 2019-03-04 11:25 夜半钟声到客船阅读(1642) 评论(1) 推荐(0)

spring的定时任务配置

摘要：工作中需求：每天早上定时将数据查询出来只作为excel上传至远程服务器配置spring的xml文件客户端上传文件值一个url接口的方法从Dao层借口返回的list集合数据形成excel 阅读全文

posted @ 2019-02-27 21:03 夜半钟声到客船阅读(491) 评论(0) 推荐(0)

关于reduce输出write方法

摘要：AuditorDimensionKey.class, Text.class, job, false); 阅读全文

posted @ 2019-02-23 17:06 夜半钟声到客船阅读(486) 评论(0) 推荐(0)

python3

摘要：# list学习 """ """ """ # 1.中括号[]表示里面可以是任意数据类型元组，列表 li=[1,2,4,990,2.9,"sssss",["sss","aaa"],(1,2)] # 索引取值 print(li[3]) #2. 切片从1至3 从1至倒数第三个 print(li[1:3]) print(li[1:-3]) # 3.循环取值 for l in li : pr... 阅读全文

posted @ 2019-02-21 23:57 夜半钟声到客船阅读(235) 评论(0) 推荐(0)

hive与hbase集成

摘要：hive的复合数据类型如何取值： Structs： structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域aMaps（K-V对）：访问指定域可以通过["指定域名称"]进行，例如，一个Map M包含了一个grou 阅读全文

posted @ 2019-02-20 22:40 夜半钟声到客船阅读(347) 评论(0) 推荐(0)

spark读取hbase形成RDD，存入hive或者spark_sql分析

摘要：object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession .builder() .master("local[2]") .appName("Spark Read Hbase ") ... 阅读全文

posted @ 2019-02-19 21:49 夜半钟声到客船阅读(1557) 评论(2) 推荐(0)

spark机器学习笔记01

摘要： 1）外部数据源 val distFile1 = sc.textFile("data.txt") //本地当前目录下文件 val distFile2 =sc.textFile("hdfs://192.168.121.12:8020/input/data.txt") //HDFS文件 val dis 阅读全文

posted @ 2019-02-18 22:59 夜半钟声到客船阅读(257) 评论(0) 推荐(0)

storm的trident编程模型

摘要：storm的基本概念别人总结的， https://blog.csdn.net/pickinfo/article/details/50488226 编程模型最关键最难就是实现局部聚合的业务逻辑聚合类实现Aggregator接口重写方法aggregate，聚合使用存储中间聚合过程状态的类，本地hashmap的去重逻辑还有加入redis后进行的一些去重操作，数据的持久（判断三天内的带播控量） pub... 阅读全文

posted @ 2019-02-15 16:48 夜半钟声到客船阅读(445) 评论(0) 推荐(0)

scala语言中的case关键字在spark中的一个奇特使用

摘要：结果如下阅读全文

posted @ 2019-02-14 15:50 夜半钟声到客船阅读(3740) 评论(0) 推荐(0)

关于mapreducer 读取hbase数据存入mysql的实现过程

摘要：mapreducer编程模型是一种八股文的代码逻辑，就以用户行为分析求流存率的作为例子 1.map端来说:必须继承hadoop规定好的mapper类：在读取hbase数据时，已经有现成的接口 TableMapper，只需要规定输出的key和value的类型 public class LoseUserMapper extends TableMapper { //////////省去代码在执行... 阅读全文

posted @ 2019-02-14 10:26 夜半钟声到客船阅读(511) 评论(0) 推荐(0)

使用tableau去将存入mysql都地区点击率进行了展示感觉很好用

摘要：1.连接数据源很多选项：hive mysql Oracle 等所有数据库 2.写上hive2的那个客户端连接，下边会显示出让我装连接的驱动，所有jdbc都需要这样点进去找到windows的下载一键安装即可，后续连接数据可以看到表使用一个openStree的图层阅读全文

posted @ 2019-02-01 11:10 夜半钟声到客船阅读(437) 评论(0) 推荐(0)

spark与kafka集成进行实时 nginx代理这种sdk埋点原生日志实时解析处理

摘要：日志格式202.108.16.254^A1546795482.600^A/cntv.gif?appId=3&areaId=8213&srcContId=2535575&areaType=1&srcContName=%E5%88%87%E7%89%B9%E9%87%8C%E6%A2%85%E5%BC%80%E4%BA%8C%E5%BA%A6+%E5%8D%B0%E5%BA%A64-1%E5%A4%... 阅读全文

posted @ 2019-01-31 17:02 夜半钟声到客船阅读(996) 评论(0) 推荐(0)

java-web的mybatis的学习

摘要：idea开发必须是把Mapper文件与配置文件放到Resources标记的classpath目录下，eclips好像放到哪都行指定好路径就可以了， maven里面做好配置resources的路径，不然更新依赖工程结构标记又没了 1.原生使用sqlsessionFcatory去做数据库操作，很麻烦阅读全文

posted @ 2019-01-31 14:56 夜半钟声到客船阅读(873) 评论(0) 推荐(0)

关于字符串split一些用法

摘要：split方法在大数据开发中的多用于日志解析及字段key值分割，最近需求中碰到一个问题在无论怎么分割都会出现数组下标越界问题，由于前台在sdk中多加了几个字段（测试数据很少，大多为空），需要我们进行字段补全插入到mysql中，但项目过于老，2016年项目使用的是spark1.5.2不说，使用j 阅读全文

posted @ 2019-01-30 10:20 夜半钟声到客船阅读(936) 评论(0) 推荐(0)

hive 中简单的udf函数编写

摘要：1.注册函数，使用using jar方式在hdfs上引用udf库。 $hive>create function formattime as 'com.bigdata.udf.FormatTimeUDF' using jar 'hdfs://hadoop01/app/app-logs-hive-1.0-SNAPSHOT.jar';2.注销函数，只需要删除mysql的hive数据记录即可。 de... 阅读全文

posted @ 2019-01-25 18:03 夜半钟声到客船阅读(1276) 评论(0) 推荐(0)

hive 用户行为分析（活跃。启动，留存，回访，新增）的一些经典sql

摘要：很简单的sql 用户分析语句：只要自定义简单的udf函数获取统计时间createdatms字段的使用的日历类 add方法和simpledateformat 将long类型的定义多个重载方法获取返回值int类型或者long类型进行时间判断即可 getdaybegin（天开始），比如20 阅读全文

posted @ 2019-01-25 17:57 夜半钟声到客船阅读(5445) 评论(0) 推荐(0)

落霞与孤鹜齐飞

中山桥砖厂搬砖者

随笔分类 - 大数据

公告