会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ChouYarn
博客园
首页
新随笔
联系
订阅
管理
2019年9月24日
记一次Sqoop抽数据异常
摘要: 1. 环境 2.错误描述 在使用Sqoop抽取MySQL数据时,使用hdfs作为缓存,s3作为hive的存储地址,命令如下。 抽取到hdfs之后,需要distcp到s3,这时发生错误如下: FAILED Container [pid=3951,containerID=container_156774
阅读全文
posted @ 2019-09-24 10:24 ChouYarn
阅读(1304)
评论(0)
推荐(0)
2019年8月9日
Flink+Druid构建实时OLAP的探索
摘要: 场景 k12在线教育公司的业务场景中,有一些业务场景需要实时统计和分析,如分析在线上课老师数量、学生数量,实时销售额,课堂崩溃率等,需要实时反应上课的质量问题,以便于对整个公司的业务情况有大致的了解。 方案对比 对比了很多解决方案,如下几种,列出来供参考。 设计方案 实时处理采用Flink SQL,
阅读全文
posted @ 2019-08-09 18:09 ChouYarn
阅读(7861)
评论(0)
推荐(0)
2019年8月7日
客户端埋点实时OLAP指标计算方案
摘要: 背景 产品经理想要实时查询一些指标数据,在新版本的APP上线之后,我们APP的一些质量指标,比如课堂连接掉线率,课堂内崩溃率,APP崩溃率等指标,以此来看APP升级之后上课的体验是否有所提升,上课质量是否有所提高,为下一步的APP升级做准备。 客户端埋点 按照需求打点,如果想知道某一指标如进入教室成
阅读全文
posted @ 2019-08-07 17:15 ChouYarn
阅读(2171)
评论(1)
推荐(0)
2019年8月2日
Kafka服务不可用(宕机)问题踩坑记
摘要: 背景 某线上日志收集服务报警,打开域名报502错误码。 收集服务由2台netty HA服务器组成,netty服务器将客户端投递来的protobuf日志解析并发送到kafka,打开其中一个应用的日志,发现如下报错: 在排除了netty服务的错误之后,去查看kafka的日志。 发现报错,排查过程如下;
阅读全文
posted @ 2019-08-02 18:06 ChouYarn
阅读(19178)
评论(2)
推荐(0)
2019年8月1日
实时计算-多级订单金额,及下级人数
摘要: 1 系统概述 人物关系为代理模式,一级代理包含二级代理,二级代理包含三级代理。 需求为实时计算每个用户的订单金额,并取出金额的TOP100。 并实时计算当天下级人数。 单用户订单列表查询:查询订单表,不限定日期。 当天订单额top100:查询指标表对金额排序取前100,限定日期当天。 当天下级人数:
阅读全文
posted @ 2019-08-01 16:23 ChouYarn
阅读(1494)
评论(4)
推荐(1)
Apache Druid0.15.0安装方式
摘要: Druid0.15.0概述 Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid仍能够保持100%正常运行。创建Druid的最初意图主要是为了解决查询延迟
阅读全文
posted @ 2019-08-01 15:31 ChouYarn
阅读(2585)
评论(0)
推荐(0)
superset安装文档
摘要: 1 安装python3.6 2 安装superset 3 配置superset 出现错误 ModuleNotFoundError: No module named 'MySQLdb',使用命令解决
阅读全文
posted @ 2019-08-01 10:21 ChouYarn
阅读(1285)
评论(0)
推荐(0)
2019年3月9日
Scala的常用小技巧
摘要: 1."RichString.java".stripSuffix(".java") == "RichString" "http://my.url.com".stripPrefix("http://") == "my.url.com" 2.Scala中,访问修饰符可以通过使用限定词强调。格式为:priv
阅读全文
posted @ 2019-03-09 10:28 ChouYarn
阅读(1819)
评论(0)
推荐(0)
2018年10月17日
Hadoop MapReduce的Shuffle过程
摘要: 一、概述 理解Hadoop的Shuffle过程是一个大数据工程师必须的,笔者自己将学习笔记记录下来,以便以后方便复习查看。 二、 MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。 2.1 map端 map函数
阅读全文
posted @ 2018-10-17 17:47 ChouYarn
阅读(1767)
评论(0)
推荐(0)
2018年8月21日
Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once
摘要: 一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。 二、使用场景 S
阅读全文
posted @ 2018-08-21 16:23 ChouYarn
阅读(4414)
评论(1)
推荐(1)
下一页
公告