十一vs十一 - 博客园

2020年11月12日

摘要：今日内容:1) HDFS基本的概念架构中相关的机制 -- 理解2) HDFS的shell命令的操作: --唯一的操作 3) HDFS的基本原理: 4) hdfs的工作机制: 记忆 (能够拿自己的话出来) hdfs的写数据的流程 hdfs的读数据的流程5) hdfs的元数据辅助管理机制记忆 1) 阅读全文

posted @ 2020-11-12 21:14 十一vs十一阅读(401) 评论(0) 推荐(0)

大数据之flink教程

摘要：第一章 Flink简介 1.1 初识Flink Flink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会，参加这个孵化阅读全文

posted @ 2020-11-12 16:58 十一vs十一阅读(662) 评论(0) 推荐(0)

大数据项目实战之在线教育（04实时实现）

摘要：第1章项目需求及架构设计1.1 项目需求分析一、数据采集平台搭建二、Kafka、Zookeeper中间件准备三、下游Spark Streaming对接Kafka接收数据，实现vip个数统计、栏目打标签功能、做题正确率与掌握度的实时计算功能。 1.2 项目框架1.2.1 技术选型一、数据存储阅读全文

posted @ 2020-11-12 15:59 十一vs十一阅读(615) 评论(0) 推荐(0)

大数据项目实战之在线教育（03实时需求）

摘要：第1章Spark Streaming概念 Spark Streaming 是核心Spark API的扩展，可实现实时数据的可扩展，高吞吐量，容错处理。数据可以从许多来源（如Kafka,Flume,Kinesis,或TCP套接字）中获取，并可以使用高级函数进行处理，处理完后的数据可以推送到文件系统，数阅读全文

posted @ 2020-11-12 15:36 十一vs十一阅读(334) 评论(0) 推荐(0)

大数据项目实战之在线教育（01数仓需求）

摘要：第1章数据仓库概念数据仓库是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。数据仓库是出于分析报告和决策支持目的而创建的，为需要业务智能的企业，提供指导业务流程改进、监控时间、成本、质量以及控制。第2章项目需求及架构设计 2.1 项目需求分析一、数据采集平台搭建二、实现数阅读全文

posted @ 2020-11-12 15:32 十一vs十一阅读(1186) 评论(0) 推荐(0)

大数据项目实战之在线教育（02数仓实现）

摘要：第1章数仓分层概念 1.1 为什么要分层 1.2 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 详见：尚硅谷大数据技术之Hive 2.1 Hive&MySQL安装 2.1. 阅读全文

posted @ 2020-11-12 12:01 十一vs十一阅读(945) 评论(0) 推荐(0)

大数据之flink教程-TableAPI和SQL

摘要： Table API 和 Flink SQL 第一章整体介绍 1.1 什么是 Table API 和 Flink SQL Flink本身是批流统一的处理框架，所以Table API和SQL，就是批流统一的上层处理API。目前功能尚未完善，处于活跃的开发阶段。 Table API是一套内嵌在Java 阅读全文

posted @ 2020-11-12 09:48 十一vs十一阅读(3297) 评论(0) 推荐(0)

尚硅谷大数据技术之电商用户行为数据分析

摘要：尚硅谷大数据技术之电商用户行为分析第1章项目整体介绍 1.1 电商的用户行为电商平台中的用户行为频繁且较复杂，系统上线运行一段时间后，可以收集到大量的用户行为数据，进而利用大数据技术进行深入挖掘和分析，得到感兴趣的商业指标并增强对风险的控制。电商用户行为数据多样，整体可以分为用户行为习惯数据阅读全文

posted @ 2020-11-12 09:26 十一vs十一阅读(1709) 评论(0) 推荐(0)

大数据实时项目(采集部分)

摘要：第一章实时需求概览 1 实时需求与离线需求的比较离线需求，一般是根据前一日的数据生成报表，虽然统计指标、报表繁多，但是对时效性不敏感。实时需求，主要侧重于对当日数据的实时监控，通常业务逻辑相对离线需求简单一下，统计指标也少一些，但是更注重数据的时效性，以及用户的交互性。 2 需求明细 2.1当阅读全文

posted @ 2020-11-12 09:18 十一vs十一阅读(489) 评论(0) 推荐(0)

2020年11月9日

大数据实时项目(交易额)

摘要：第一章 ·采集数据 1 框架流程 2 canal 入门 2.1 什么是 canal 阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量阅读全文

posted @ 2020-11-09 16:39 十一vs十一阅读(508) 评论(0) 推荐(0)

公告