ChouYarn

2019年9月24日

摘要： 1. 环境 2.错误描述在使用Sqoop抽取MySQL数据时，使用hdfs作为缓存，s3作为hive的存储地址，命令如下。抽取到hdfs之后，需要distcp到s3，这时发生错误如下： FAILED Container [pid=3951,containerID=container_156774 阅读全文

posted @ 2019-09-24 10:24 ChouYarn 阅读(1315) 评论(0) 推荐(0)

2019年8月9日

Flink+Druid构建实时OLAP的探索

摘要：场景 k12在线教育公司的业务场景中，有一些业务场景需要实时统计和分析，如分析在线上课老师数量、学生数量，实时销售额，课堂崩溃率等，需要实时反应上课的质量问题，以便于对整个公司的业务情况有大致的了解。方案对比对比了很多解决方案，如下几种，列出来供参考。设计方案实时处理采用Flink SQL，阅读全文

posted @ 2019-08-09 18:09 ChouYarn 阅读(7880) 评论(0) 推荐(0)

2019年8月7日

客户端埋点实时OLAP指标计算方案

摘要：背景产品经理想要实时查询一些指标数据，在新版本的APP上线之后，我们APP的一些质量指标，比如课堂连接掉线率，课堂内崩溃率，APP崩溃率等指标，以此来看APP升级之后上课的体验是否有所提升，上课质量是否有所提高，为下一步的APP升级做准备。客户端埋点按照需求打点，如果想知道某一指标如进入教室成阅读全文

posted @ 2019-08-07 17:15 ChouYarn 阅读(2196) 评论(1) 推荐(0)

2019年8月2日

Kafka服务不可用(宕机)问题踩坑记

摘要：背景某线上日志收集服务报警，打开域名报502错误码。收集服务由2台netty HA服务器组成,netty服务器将客户端投递来的protobuf日志解析并发送到kafka，打开其中一个应用的日志，发现如下报错：在排除了netty服务的错误之后，去查看kafka的日志。发现报错，排查过程如下；阅读全文

posted @ 2019-08-02 18:06 ChouYarn 阅读(19249) 评论(2) 推荐(0)

2019年8月1日

实时计算-多级订单金额，及下级人数

摘要： 1 系统概述人物关系为代理模式，一级代理包含二级代理，二级代理包含三级代理。需求为实时计算每个用户的订单金额，并取出金额的TOP100。并实时计算当天下级人数。单用户订单列表查询：查询订单表，不限定日期。当天订单额top100：查询指标表对金额排序取前100，限定日期当天。当天下级人数：阅读全文

posted @ 2019-08-01 16:23 ChouYarn 阅读(1513) 评论(4) 推荐(1)

Apache Druid0.15.0安装方式

摘要： Druid0.15.0概述 Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时，Druid仍能够保持100%正常运行。创建Druid的最初意图主要是为了解决查询延迟阅读全文

posted @ 2019-08-01 15:31 ChouYarn 阅读(2607) 评论(0) 推荐(0)

superset安装文档

摘要： 1 安装python3.6 2 安装superset 3 配置superset 出现错误 ModuleNotFoundError: No module named 'MySQLdb',使用命令解决阅读全文

posted @ 2019-08-01 10:21 ChouYarn 阅读(1295) 评论(0) 推荐(0)

2019年3月9日

Scala的常用小技巧

摘要： 1."RichString.java".stripSuffix(".java") == "RichString" "http://my.url.com".stripPrefix("http://") == "my.url.com" 2.Scala中，访问修饰符可以通过使用限定词强调。格式为:priv 阅读全文

posted @ 2019-03-09 10:28 ChouYarn 阅读(1823) 评论(0) 推荐(0)

2018年10月17日

Hadoop MapReduce的Shuffle过程

摘要：一、概述理解Hadoop的Shuffle过程是一个大数据工程师必须的，笔者自己将学习笔记记录下来，以便以后方便复习查看。二、 MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。 2.1 map端 map函数阅读全文

posted @ 2018-10-17 17:47 ChouYarn 阅读(1793) 评论(0) 推荐(0)

2018年8月21日

Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once

摘要：一、概述上次写这篇文章文章的时候，Spark还是1.x，kafka还是0.8x版本，转眼间spark到了2.x，kafka也到了2.x，存储offset的方式也发生了改变，笔者根据上篇文章和网上文章，将offset存储到Redis，既保证了并发也保证了数据不丢失，经过测试，有效。二、使用场景 S 阅读全文

posted @ 2018-08-21 16:23 ChouYarn 阅读(4439) 评论(1) 推荐(1)

公告