ZacksTang

2021年2月22日

摘要： 1. Kubernetes介绍要了解Kubernetes，首先我们需要了解Container与Orchestration。 Docker Docker的出现是为了解决：部署依赖、以及兼容性、以及繁琐的启动配置问题 Docker使用的是底层的OS（也就是docker中的share kernel）。在阅读全文

posted @ 2021-02-22 23:20 ZacksTang 阅读(391) 评论(0) 推荐(0)

2021年1月5日

天池题目：工业蒸汽预测（一）- 数据探索

摘要： 1. 题目介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返阅读全文

posted @ 2021-01-05 22:54 ZacksTang 阅读(1325) 评论(0) 推荐(0)

2020年11月19日

Bike Sharing Analysis（二）- 假设检验方法

摘要：假设检验假设检验是推论统计学（inferential statistics）的一个分支，也就是对一个较小的、有代表性的数据组（例如样本集合）进行分析与评估，并依此推断出一个大型的数据组（例如人口）的一般性结论。一个典型的例子如：估算一个国家中居民的平均身高（在这个场景下，也就是人口）。在估算时，可阅读全文

posted @ 2020-11-19 20:55 ZacksTang 阅读(753) 评论(0) 推荐(0)

2020年11月12日

Bike Sharing Analysis（一）- 探索数据

摘要： 1. Bike Sharing Analysis 在这章主要介绍如何分析共享单车服务数据，以及如何基于时间、天气状态特征来识别单车的使用模式。除此之外，我们还会引入可视化分析，假设检验、以及时间序列分析的概念与方法。共享单车是城市里较为快速的通勤方式，了解用户使用共享单车所考虑的因素，对于公司和用阅读全文

posted @ 2020-11-12 14:50 ZacksTang 阅读(1213) 评论(0) 推荐(0)

2020年6月12日

Spark Structured Streaming（二）实战

摘要： 5. 实战Structured Streaming 5.1. Static版本先读一份static 数据： val static = spark.read.json("s3://xxx/data/activity-data/") static.printSchema root |-- Arriva 阅读全文

posted @ 2020-06-12 11:40 ZacksTang 阅读(2858) 评论(0) 推荐(0)

2020年6月9日

Spark Structured Streaming（一）基础

摘要： 1. 流处理的场景我们在定义流处理时，会认为它处理的是对无止境的数据集的增量处理。不过对于这个定义来说，很难去与一些实际场景关联起来。在我们讨论流处理的优点与缺点时，先介绍一下流处理的常用场景。通知与警报：可能流应用最明显的例子就是通知（notification）与警报（alerting）。实阅读全文

posted @ 2020-06-09 16:13 ZacksTang 阅读(1648) 评论(0) 推荐(0)

2020年4月21日

Apache Kylin（三）Kylin上手

摘要： Kylin 上手根据Kylin 官方给出的测试数据，我们实际操作一下 Kylin。 1. 导入 Hive 数据首先创建一个project，在界面左上角有个“Add Project” 按钮，这里我们创建的Project名为tuto。进入Model 界面，从 Hive 中导入两张表：kylin_s 阅读全文

posted @ 2020-04-21 21:48 ZacksTang 阅读(1598) 评论(0) 推荐(0)

Apache Kylin（二）在EMR上搭建Kylin

摘要： EMR上搭建kylin 1. 启动EMR集群根据官网说明： http://kylin.apache.org/docs21/install/kylin_aws_emr.html 启动EMR时，若是 hbase 数据存储在 s3 ，则需指定以下配置： [ { "Classification": "hb 阅读全文

posted @ 2020-04-21 21:39 ZacksTang 阅读(677) 评论(0) 推荐(0)

2020年4月18日

Apache Kylin（一）Kylin介绍

摘要： 1. 传统大数据分析的问题在基于Hadoop 生态的传统大数据分析中，主要使用的技术是MPP（Massively Parallel Processing）大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于 Hadoop 阅读全文

posted @ 2020-04-18 22:31 ZacksTang 阅读(888) 评论(0) 推荐(0)

2020年4月13日

使用AWS Glue进行 ETL 工作

摘要：数据湖数据湖的产生是为了存储各种各样原始数据的大型仓库。这些数据根据需求，进行存取、处理、分析等。对于存储部分来说，开源版本常见的就是 hdfs。而各大云厂商也提供了各自的存储服务，如 Amazon S3，Azure Blob 等。而由于数据湖中存储的数据全部为原始数据，一般需要对数据做ETL（阅读全文

posted @ 2020-04-13 00:34 ZacksTang 阅读(4186) 评论(0) 推荐(0)

公告