会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
9
···
15
下一页
2021年2月22日
Kubernetes(一)Overview
摘要: 1. Kubernetes介绍 要了解Kubernetes,首先我们需要了解Container与Orchestration。 Docker Docker的出现是为了解决:部署依赖、以及兼容性、以及繁琐的启动配置问题 Docker使用的是底层的OS(也就是docker中的share kernel)。在
阅读全文
posted @ 2021-02-22 23:20 ZacksTang
阅读(376)
评论(0)
推荐(0)
2021年1月5日
天池题目:工业蒸汽预测(一)- 数据探索
摘要: 1. 题目介绍 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返
阅读全文
posted @ 2021-01-05 22:54 ZacksTang
阅读(1318)
评论(0)
推荐(0)
2020年11月19日
Bike Sharing Analysis(二)- 假设检验方法
摘要: 假设检验 假设检验是推论统计学(inferential statistics)的一个分支,也就是对一个较小的、有代表性的数据组(例如样本集合)进行分析与评估,并依此推断出一个大型的数据组(例如人口)的一般性结论。一个典型的例子如:估算一个国家中居民的平均身高(在这个场景下,也就是人口)。在估算时,可
阅读全文
posted @ 2020-11-19 20:55 ZacksTang
阅读(729)
评论(0)
推荐(0)
2020年11月12日
Bike Sharing Analysis(一)- 探索数据
摘要: 1. Bike Sharing Analysis 在这章主要介绍如何分析共享单车服务数据,以及如何基于时间、天气状态特征来识别单车的使用模式。除此之外,我们还会引入可视化分析,假设检验、以及时间序列分析的概念与方法。 共享单车是城市里较为快速的通勤方式,了解用户使用共享单车所考虑的因素,对于公司和用
阅读全文
posted @ 2020-11-12 14:50 ZacksTang
阅读(1208)
评论(0)
推荐(0)
2020年6月12日
Spark Structured Streaming(二)实战
摘要: 5. 实战Structured Streaming 5.1. Static版本 先读一份static 数据: val static = spark.read.json("s3://xxx/data/activity-data/") static.printSchema root |-- Arriva
阅读全文
posted @ 2020-06-12 11:40 ZacksTang
阅读(2848)
评论(0)
推荐(0)
2020年6月9日
Spark Structured Streaming(一)基础
摘要: 1. 流处理的场景 我们在定义流处理时,会认为它处理的是对无止境的数据集的增量处理。不过对于这个定义来说,很难去与一些实际场景关联起来。在我们讨论流处理的优点与缺点时,先介绍一下流处理的常用场景。 通知与警报:可能流应用最明显的例子就是通知(notification)与警报(alerting)。 实
阅读全文
posted @ 2020-06-09 16:13 ZacksTang
阅读(1640)
评论(0)
推荐(0)
2020年4月21日
Apache Kylin(三)Kylin上手
摘要: Kylin 上手 根据Kylin 官方给出的测试数据,我们实际操作一下 Kylin。 1. 导入 Hive 数据 首先创建一个project,在界面左上角有个“Add Project” 按钮,这里我们创建的Project名为tuto。 进入Model 界面,从 Hive 中导入两张表:kylin_s
阅读全文
posted @ 2020-04-21 21:48 ZacksTang
阅读(1595)
评论(0)
推荐(0)
Apache Kylin(二)在EMR上搭建Kylin
摘要: EMR上搭建kylin 1. 启动EMR集群 根据官网说明: http://kylin.apache.org/docs21/install/kylin_aws_emr.html 启动EMR时,若是 hbase 数据存储在 s3 ,则需指定以下配置: [ { "Classification": "hb
阅读全文
posted @ 2020-04-21 21:39 ZacksTang
阅读(675)
评论(0)
推荐(0)
2020年4月18日
Apache Kylin(一)Kylin介绍
摘要: 1. 传统大数据分析的问题 在基于Hadoop 生态的传统大数据分析中,主要使用的技术是MPP(Massively Parallel Processing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降,列式存储可以提高读取数据的速率。两者结合可以使得基于 Hadoop
阅读全文
posted @ 2020-04-18 22:31 ZacksTang
阅读(885)
评论(0)
推荐(0)
2020年4月13日
使用AWS Glue进行 ETL 工作
摘要: 数据湖 数据湖的产生是为了存储各种各样原始数据的大型仓库。这些数据根据需求,进行存取、处理、分析等。对于存储部分来说,开源版本常见的就是 hdfs。而各大云厂商也提供了各自的存储服务,如 Amazon S3,Azure Blob 等。 而由于数据湖中存储的数据全部为原始数据,一般需要对数据做ETL(
阅读全文
posted @ 2020-04-13 00:34 ZacksTang
阅读(4169)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
15
下一页
公告