随笔分类 -  传传传传大数据

摘要:​实时OLAP开发 一、实时ETL处理 使用ClickHouse分析物流指标数据,必须将数据存储到ClickHouse中。 业务流程: 二、SparkSQL基于DataSourceV2自定义数据源 1、​​​​​​​​​​​​​​Data Source API V1 Spark 1.3 版本开始引入 阅读全文
posted @ 2024-03-29 17:35 十一vs十一 阅读(49) 评论(0) 推荐(0)
摘要:物流项目介绍和内容大纲 一、项目简介 本项目基于大型物流公司研发的智慧物流大数据平台,该物流公司是国内综合性快递、物流服务商,并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局,拥有大规模的客户群,日订单达上千万,如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。该公司需 阅读全文
posted @ 2024-03-29 17:31 十一vs十一 阅读(188) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2021-03-12 15:48 十一vs十一 阅读(0) 评论(0) 推荐(0)
摘要:SparkStreaming案例 案例1-WordCount yum install -y nc https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streami 阅读全文
posted @ 2021-01-05 10:21 十一vs十一 阅读(72) 评论(0) 推荐(0)
摘要:Spark 环境搭建 学习目标 1.了解Spark发展史 2.完成Spark环境搭建 3.掌握Spark入门案例-WordCount 4.完成将Spark任务提交到Yarn 1. 课程说明 1.1 课程安排 整个Spark 框架课程分为如下9个部分,如下图所示: 第1章:Spark环境搭建 第2章: 阅读全文
posted @ 2021-01-05 09:06 十一vs十一 阅读(636) 评论(0) 推荐(0)
摘要:Scala概述 Scala介绍 https://www.scala-lang.org/ Scala是一门综合了面向对象和函数式编程的语言, 运行在JVM之上, 能够和Java语言互操作 Scala的特点 语法简洁 开发速度快/运行速度快 兼容Java 很多大数据框架的源码或编程接口都支持Scala 阅读全文
posted @ 2020-12-27 01:44 十一vs十一 阅读(144) 评论(0) 推荐(0)
摘要:今日内容:1) JAVA API 操作 ES 集群2) ES的架构原理3) ES的 sql操作4) Beats基本概念及其使用5) logstash基本概念及其使用6) kibana基本概念及其使用 1) JAVA API 操作 ES 集群 : 根据关键词查询 分页查询(浅分页 和 深分页) 高亮展 阅读全文
posted @ 2020-12-23 00:04 十一vs十一 阅读(995) 评论(0) 推荐(0)
摘要:报名用户主题看板 1. 学习目标 了解报名用户主题看板需求 能够使用Hive进行并行操作 掌握Hive常用的判断函数 掌握Hive小文件合并的用法 掌握矢量化查询的用法 掌握关联优化器的用法 掌握读取零拷贝的用法 能够编写报名用户指标的DWD清洗转换SQL 掌握表连接查询时数据倾斜的优化方法 掌握分 阅读全文
posted @ 2020-12-01 16:41 十一vs十一 阅读(434) 评论(0) 推荐(0)
摘要:今日内容: 1) 分桶表的相关优化 -- 理解2) 建模分层操作 -- 需要操作3) 全量流程的统计分析: -- 需求操作 (尝试自己实现) 数据的采集, 数据的清洗转换, 数据维度退化, 数据的统计分析4) 增量流程的: 如何对拉链表实现增量处理 -- 理解 1.意向客户主题看板_需求说明: 需求 阅读全文
posted @ 2020-11-30 11:27 十一vs十一 阅读(479) 评论(0) 推荐(0)
摘要:今日内容:1) 分桶表的相关优化 -- 理解2) 建模分层操作 -- 需要操作3) 全量流程的统计分析: -- 需求操作 (尝试自己实现) 数据的采集, 数据的清洗转换, 数据维度退化, 数据的统计分析4) 增量流程的: 如何对拉链表实现增量处理 -- 理解 1.意向客户主题看板_需求说明: 需求一 阅读全文
posted @ 2020-11-30 10:30 十一vs十一 阅读(806) 评论(0) 推荐(0)
摘要:今日内容:1) Git基本介绍2) Git安装操作3) 如何使用Git管理版本库操作4) 远程仓库: 码云5) 分支管理6) 在IDEA中如何git 一上午的时间7) 主题一: 访问咨询主题看板 7.1: 需求说明 : 将调研需求 转换为 开发需求 -- 相当重要 7.2: 建模分析 非常重要 7. 阅读全文
posted @ 2020-11-27 00:37 十一vs十一 阅读(190) 评论(0) 推荐(0)
摘要:1)首先下载Git --> 传送门 https://git-scm.com/downloads Git官网 可以直接下载最新版的 (2)安装git 双击运行安装包,一直next就行了 二 :注册码云账号 滴 ,传送门 :https://gitee.com/signup 一般用邮箱注册,这里也不多讲 阅读全文
posted @ 2020-11-26 23:45 十一vs十一 阅读(160) 评论(0) 推荐(0)
摘要:>.ClouderaManager功能 1.1>.管理监控集群主机(主要监控硬件和软件的信息); 1.2>.同一管理配置(主要是针对服务,比如hdfs,hbase等等); 1.3>.管理维护Hadoop平台系统; 2>.ClouderaManager的一些常见名词 2.1>.主机-host 2.2> 阅读全文
posted @ 2020-11-26 00:36 十一vs十一 阅读(410) 评论(0) 推荐(0)
摘要:sqoop数据迁移 1. 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的HDFS、HIVE中导出数据到关系数据库mysq 阅读全文
posted @ 2020-11-25 16:32 十一vs十一 阅读(356) 评论(0) 推荐(0)
摘要:数仓工具 1. 学习目标 能够使用Hue操作HDFS 能够使用Hue操作Hive 理解为什么选择Sqoop 理解Sqoop1和Sqoop2的区别 理解Sqoop抽取数据的两种方式 能够使用Sqoop导入完整数据到HDFS 能够使用Sqoop导入完整数据到Hive 能够使用Sqoop导入条件数据到HD 阅读全文
posted @ 2020-11-25 15:23 十一vs十一 阅读(621) 评论(0) 推荐(0)
摘要:项目介绍和需求管理 1. 学习目标 了解知行教育大数据的项目背景 了解知行教育大数据的看板划分 了解项目技术架构 了解ClouderaManager的应用场景 掌握ClouderaManager架构 能够使用Vmware虚拟机环境 2. 项目简介 知行教育大数据分析平台,突出的是“真”,此项目是传智 阅读全文
posted @ 2020-11-25 09:39 十一vs十一 阅读(401) 评论(0) 推荐(0)
摘要:在命令状态下对当前行用== (连按=两次), 或对多行用n==(n是自然数)表示自动缩进从当前行起的下面n行。你可以试试把代码缩进任意打乱再用n==排版,相当于一般IDE里的code format。使用gg=G可对整篇代码进行排版。 vim 选择文本,删除,复制,粘贴 文本的选择,对于编辑器来说,是 阅读全文
posted @ 2020-11-17 10:57 十一vs十一 阅读(138) 评论(0) 推荐(0)
摘要:阅读目录 开关机命令 ifconfig 查看ip地址 用户相关 权限相关 特殊字符 重定向相关 iptables防火墙 1. ls 命令 2、cd 切换 3、pwd 查看当前工作目录路径 4、mkdir 创建文件夹 5、rm 删除文件 7、mv 移动/修改文件名 8、cp 复制 9、cat 显示文件 阅读全文
posted @ 2020-11-17 10:49 十一vs十一 阅读(118) 评论(0) 推荐(0)
摘要:今日内容:1) 综合案例: 需求一 和 需求二: 需求一: 统计求和需求 排序需求 需求二: 求共同好友2) MapReduce性能优化策略 简单了解3) yarn基本介绍4) yarn的基本架构介绍及其相关的组件说明 --理解即可5) yarn的运行流程 -- 清楚 掌握 最好记忆住6) yarn 阅读全文
posted @ 2020-11-15 00:14 十一vs十一 阅读(163) 评论(0) 推荐(0)
摘要:爬虫综合案例 一、网络爬虫基础 1. 网络爬虫介绍 随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方 阅读全文
posted @ 2020-11-13 19:13 十一vs十一 阅读(165) 评论(0) 推荐(0)