会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
star521
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
20
下一页
2018年11月24日
注意问题:flume总结+kafka总结
摘要: flume总结 flume如何保证数据可靠性:JDBC FILE MEMORY ??? JDBC FILE: 传输慢 MEMORY:传输快,但是容易丢数据。解决:写个脚本监控如果flume挂了,瞬间启动 改造flume exec源 ,增加守护线程来监控目录 防止丢失数据 | redis缓存中,存储已
阅读全文
posted @ 2018-11-24 19:16 star521
阅读(1974)
评论(0)
推荐(0)
2018年11月23日
01 sparkAPI-阅读总结-sparkstreaming
摘要: Spark Streaming编程指南 概观 一个快速的例子 基本概念 链接 初始化StreamingContext 离散流(DStreams) 输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营 缓存/持久性
阅读全文
posted @ 2018-11-23 21:35 star521
阅读(413)
评论(0)
推荐(0)
01 sparkAPI-阅读总结-TuningSpark
摘要: TuningSpark 调整Spark 数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 摘要 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 并行程度 减少
阅读全文
posted @ 2018-11-23 20:31 star521
阅读(166)
评论(0)
推荐(0)
30 友盟项目---体会篇
摘要: BigData 任重而道远 spark.apache.org/ https://flink-china.org https://stackoverflow.com/ https://mvnrepository.com/ https://github.com/star521li https://www
阅读全文
posted @ 2018-11-23 03:45 star521
阅读(179)
评论(0)
推荐(0)
2018年11月22日
29 友盟大数据--flume源码查看分析ExecSource--UmengExecSource 改造exec源 :监控目录、收集新文件---增加个守护线程不断监控目录
摘要: flume自定义源防丢失 解决flume还未收集完日志便已经滚动,数据丢失问题 防重、防丢失 改造exec源 :监控目录、收集新文件 增加个守护线程不断监控目录 一次收集完一个文件 redis 3号库维护key 防止重复 UmengExecSource
阅读全文
posted @ 2018-11-22 21:58 star521
阅读(441)
评论(0)
推荐(0)
28 友盟大数据--flume源码查看分析- ExecSource-参照主机名拦截器HostInterceptor ---写限速拦截器
摘要: ChannelProcessor processEventBatch() 参照主机名拦截器HostInterceptor 写限速拦截器 实现 Interceptor
阅读全文
posted @ 2018-11-22 20:36 star521
阅读(366)
评论(0)
推荐(0)
程序员佛祖保佑无bug、发发发 -注释代码
摘要: // // _ooOoo_ // o8888888o // 88" . "88 // (| -_- |) // O\ = /O...
阅读全文
posted @ 2018-11-22 20:09 star521
阅读(1887)
评论(0)
推荐(0)
27 友盟项目--azkaban资源调度
摘要: azkaban资源调度 1、启动azkaban 2、azkban web执行器 8081 3、s101:8081 4、jar包目录 创建有依赖关系dependencies的多个job描述 1_load_data_to_hive_raw_logs.job 2_1_data_clean_startupl
阅读全文
posted @ 2018-11-22 20:03 star521
阅读(375)
评论(0)
推荐(0)
26 友盟项目--数据可视化
摘要: 使用ssm进行数据可视化 1.添加web支持 maven ssm框架 依赖 web.xml文件 beans.xml mybatis-config.xml Stat-act-daymapper.xml Sql语句 。。。。。。。。。。。。。 。。。。。。。。。。 展示 添加部署 添加tomcat 把可
阅读全文
posted @ 2018-11-22 20:02 star521
阅读(359)
评论(0)
推荐(0)
25 友盟项目--sqoop从hive导出数据到mysql
摘要: sqoop导出数据到mysql 需要启动yarn start-yarn.sh sqoop导出hive统计数据到mysql 1.复制mysql驱动程序到sqoop/lib下 2.在mysql中创建表 create table stat_act_day( day varchar(50), appid v
阅读全文
posted @ 2018-11-22 20:01 star521
阅读(462)
评论(0)
推荐(0)
24 友盟项目--优化-flume限速拦截、flume自定义源防丢失--改造exec源守护线程监控目录(防丢失)redis维护key(去重)
摘要: 一、flume限速拦截 flume架构图 flume源码查看分析 ExecSource exec数据源--实时收集 限速拦截器 代码实现 拦截器 Interceptor 接口 通过第一次发送的时间计算出 ,发送一个事件本应该所需的时间,与实际发送的时间做对比。如果实际的发送时间<本应该花费的时间,说
阅读全文
posted @ 2018-11-22 19:58 star521
阅读(985)
评论(0)
推荐(0)
23 友盟项目--sparkstreaming对接kafka、集成redis--从redis中查询月留存率
摘要: 从redis中查询月留存率 StatRemainRatioMonth 执行sql语句
阅读全文
posted @ 2018-11-22 19:55 star521
阅读(396)
评论(0)
推荐(0)
2018年11月15日
22 友盟项目--sparkstreaming对接kafka、集成redis--从redis中存储用户使用app的最小时间戳min , 最大时间戳max
摘要: 实时存储到redis,更新用户使用时间的最大、最小值--》来求留存率 避免全表扫描问题 1.spark 对接kafka 消费者 解析json 2.concat(appid,'#',appversion,'#',brand,'#',appplatform,'#',devicestyle,'#',ost
阅读全文
posted @ 2018-11-15 08:51 star521
阅读(645)
评论(0)
推荐(0)
21 友盟项目--统计连续活跃用户、近期流失用户、留存用户--创建表并插入选择出的数据
摘要: 连续活跃用户 近期流失用户 留存用户
阅读全文
posted @ 2018-11-15 08:25 star521
阅读(775)
评论(0)
推荐(0)
20 友盟项目--统计月活率、沉默用户、周回流用户--创建表并插入选择出的数据
摘要: 月活率 沉默用户 周回流用户
阅读全文
posted @ 2018-11-15 08:24 star521
阅读(713)
评论(0)
推荐(0)
上一页
1
···
8
9
10
11
12
13
14
15
16
···
20
下一页
公告