上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 69 下一页

2022年4月10日

|NO.Z.00049|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|拉链表实现|建表加载|测试案例|

摘要: 一、维表拉链表应用案例:维表拉链表案例说明 二、维表拉链表建表加载数据 ### 创建用户信息表 ~~~ 用户信息 DROP TABLE IF EXISTS test.userinfo; CREATE TABLE test.userinfo( userid STRING COMMENT '用户编号', 阅读全文

posted @ 2022-04-10 14:51 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00050|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V08|——|PB数仓.v08|拉链表实现|构建拉链表|

摘要: 一、构建拉链表 ### 拉链表的实现 ~~~ userinfo(分区表) => userid、mobile、regdate => ~~~ 每日变更的数据(修改的+新增的) / 历史数据(第一天) ~~~ userhis(拉链表)=> 多了两个字段 start_date / end_date 二、拉链 阅读全文

posted @ 2022-04-10 14:51 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00048|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|核心交易分析|缓慢变化|维度处理|

摘要: 一、缓慢变化维与周期性事实表 ### 缓慢变化维 ~~~ 缓慢变化维(SCD;Slowly Changing Dimensions)。 ~~~ 在现实世界中,维度的属性随着时间的流失发生缓慢的变化 ~~~ 缓慢是相对事实表而言,事实表数据变化的速度比维度表快。 ~~~ 处理维度表的历史变化信息的问题 阅读全文

posted @ 2022-04-10 14:50 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00046|——————————|^^ 数据 ^^|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|核心交易分析|增量数据导入|

摘要: 一、增量数据导入 ### 增量数据导入概述 ~~~ # 3张增量表: ~~~ 订单表 yanqi_trade_orders ~~~ 订单产品表 yanqi_order_produce ~~~ 产品信息表 yanqi_product_info ~~~ 初始数据装载(执行一次); ~~~ 可以将前面的全 阅读全文

posted @ 2022-04-10 14:50 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00047|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|核心交易分析|ODS层建表|数据加载|

摘要: 一、ODS层建表与数据加载 ### ODS建表: ~~~ ODS层的表结构与源数据基本类似(列名及数据类型); ~~~ ODS层的表名遵循统一的规范; ~~~ 所有的表都是分区表;字段之间的分隔符为, ;为表的数据数据文件指定了位置; 二、ODS层建表与数据加载 ### ODS层建表:订单表 DRO 阅读全文

posted @ 2022-04-10 14:50 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00045|——————————|^^ 数据 ^^|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|核心交易分析|全量数据导入|

摘要: 一、全量数据导入 ### 全量数据导入 ~~~ MySQL => HDFS => Hive ~~~ 每日加载全量数据,形成新的分区;(ODS如何建表有指导左右) 二、全量数据导入:导入产品分类表 ### 产品分类表导入json文件 ~~~ 数据量小的表没有必要使用多个channel;使用多个chan 阅读全文

posted @ 2022-04-10 14:49 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|核心交易分析|数据导入&需求分析|

摘要: 一、数据导入 ## 数据导入架构说明 ~~~ 已经确定的事情:DataX、导出7张表的数据。 ~~~ MySQL 导出:全量导出、增量导出(导出前一天的数据)。 ~~~ 业务数据保存在MySQL中,每日凌晨导入上一天的表数据。 ~~~ 表数据量少,采用全量方式导出MySQL ~~~ 表数据量大,而且 阅读全文

posted @ 2022-04-10 14:48 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|核心交易分析|业务需求&业务数据库|

摘要: 一、电商分析之--核心交易 ### 业务需求 ~~~ 本主题是电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。 ~~~ 选取的指标包括:订单数、商品数、支付金额。对这些指标按销售区域、商品类型进行分析。 二、业务数据库表结构 三、实验案例操作表 ### 业务数据库:数据源 ~~~ 交 阅读全文

posted @ 2022-04-10 14:47 yanqi_vip 阅读(77) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&PB级数仓.V08|——|PB数仓.v08|高防日志数据测试|

摘要: 一、高仿日志数据测试 ### 数据采集 ~~~ 1000W左右日活用户 ~~~ 按 30条日志 / 人天,合计3亿条事件日志 ~~~ 每条日志 650字节 左右 ~~~ 总数据量大概在180G ~~~ 采集数据时间约2.5小时 二、事件日志采集 ### 清理环境 ~~~ # 清理本地环境 ~~~ 删 阅读全文

posted @ 2022-04-10 14:46 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:46 yanqi_vip 阅读(4) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v08|ADS层数据导出|

摘要: 一、ADS层数据导出(DataX) ### 步骤: ~~~ 在MySQL创建对应的表 ~~~ 创建配置文件(json) ~~~ 执行命令,使用json配置文件;测试 ~~~ 编写执行脚本(shell) ~~~ shell脚本的测试 二、在mysql建表 ### 语法:MySQL 建表 drop ta 阅读全文

posted @ 2022-04-10 14:45 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|广告分析|漏斗分析|

摘要: 一、漏斗分析(点击率购买率) ### 需求分析 ~~~ # 分时统计: ~~~ 点击率 = 点击次数 / 曝光次数 ~~~ 购买率 = 购买次数 / 点击次数 二、创建ADS层表 ### 创建ADS层表 ~~~ # 语法:创建ADS层表 drop table if exists ads.ads_ad 阅读全文

posted @ 2022-04-10 14:44 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|广告分析|脚本调用顺序|

摘要: 一、广告效果分析 ### 需求分析 ~~~ 活动曝光效果评估: ~~~ 行为(曝光、点击、购买)、时间段、广告位、商品,统计对应的次数 ~~~ 时间段、广告位、商品,曝光次数最多的前100个 ### 实验说明 ~~~ 小结:分析简单,没有DWS层 ~~~ Flume、json解析在会员分析讲解 二、 阅读全文

posted @ 2022-04-10 14:44 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|广告分析|点击次数计算|

摘要: 一、广告点击次数分析 ### 需求分析 ~~~ # 广告:ad ~~~ action: 用户行为;0 曝光;1 曝光后点击;2 购买 ~~~ duration: 停留时长 ~~~ shop_id: 商家id ~~~ event_type: "ad" ~~~ ad_type: 格式类型;1 JPG;2 阅读全文

posted @ 2022-04-10 14:43 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|广告分析|DWD层数据处理|

摘要: 一、DWD层建表和数据加载 ### DWD层建表和数据加载 ~~~ ODS:分区;事件的主要信息在json串中(json数组),公共信息在另外一个json串中; ~~~ ODS => 解析json,从json串中,提取jsonArray数据;将公共信息从json串中解析出来 => ### 所有事件的 阅读全文

posted @ 2022-04-10 14:43 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|广告分析|需求分析&事件日志数据样例|

摘要: 一、电商分析之——广告业务 ### 电商分析之——广告业务 ~~~ 互联网平台通行的商业模式是利用免费的基础服务吸引凝聚大量用户, ~~~ 并利用这些用户资源开展广告或其他增值业务实现盈利从而反哺支撑免费服务的生存和发展。 ~~~ 广告收入不仅成为互联网平台的重要收入之一,更决定了互联网平台的发展程 阅读全文

posted @ 2022-04-10 14:42 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|广告分析|事件日志采集&ODS层数据处理|

摘要: 一、广告分析——事件日志采集 ### 启动Flume Agent(适当的修改参数,128M滚动一次) ~~~ # 启动flume [root@hadoop02 ~]# flume-ng agent --conf /opt/yanqi/servers/flume-1.9.0/conf \ --conf 阅读全文

posted @ 2022-04-10 14:42 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:41 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&PB级数仓.V15|——|PB数仓.v15|会员活跃度分析|Hive on Tez&活跃&新增&留存|

摘要: 一、计算2020-07-22这一天的会员活跃度 ### 计算2020-07-22这一天的会员活跃度 ~~~ Hive on Tez测试数据说明:07-22(新增5000条) / 0723(新增4000条):18999条左右,执行脚本 ### Hive on Tez语法 SCRIPT_HOME=/da 阅读全文

posted @ 2022-04-10 14:40 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&PB级数仓.V16|——|PB数仓.v16|会员活跃度分析|Hive on Tez&会员留存率计算|

摘要: 一、会员留存率的计算:会员留存率计算概述 ### 修改后的代码(计算留存率): select t1.*, t2.* from ads.ads_member_retention_count t1 join ads.ads_new_member_cnt t2 on t1.add_date=t2.dt w 阅读全文

posted @ 2022-04-10 14:40 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00030|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V14|——|PB数仓.v14|会员活跃度分析|Hive on Tez安装|

摘要: 一、Hive on Tez概述 ### Hive on Tez ~~~ Hortonworks在2014年左右发布了Stinger Initiative, ~~~ 并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。 ~~~ 让Hive的查询功能更强大。增加类似OVER子句的分析功能, 阅读全文

posted @ 2022-04-10 14:39 yanqi_vip 阅读(60) 评论(0) 推荐(0)

|NO.Z.00029|——————————|^^ 重要 ^^|——|Hadoop&PB级数仓.V13|——|PB数仓.v13|会员活跃度分析|Hive on MR&活跃&新增&留存会员|数据加载|内存分配调整map&reduce数量|

摘要: 一、高仿日启动数据测试: ### 高防日启动数据测试 ~~~ 数据采集 => ODS => DWD => DWS => ADS> MySQL ~~~ 活跃会员、新增会员、会员留存 ~~~ DAU: Daily Active User(日活跃用户) ~~~ MAU: monthly active us 阅读全文

posted @ 2022-04-10 14:38 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00028|——————————|^^ 导出 ^^|——|Hadoop&PB级数仓.V12|——|PB数仓.v12|会员活跃度分析|Datax数据导出&hdfsreader => mysqlwriter|

摘要: 一、Datax 数据导出 ### DataX数据导出 ~~~ 官方配置地址:https://github.com/alibaba/DataX/blob/master/introduction.md) 二、DataX从Hive下导入表到mysql下 ### 在mysql下建表,准备导出数据的数据库 ~ 阅读全文

posted @ 2022-04-10 14:37 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00027|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V11|——|PB数仓.v11|会员活跃度分析|Datax概念安装|入门案例|

摘要: 一、DataX概述及安装 ### DataX概述 ~~~ DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台, ~~~ 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、 ~~~ MaxComp 阅读全文

posted @ 2022-04-10 14:36 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&PB级数仓.V10|——|PB数仓.v10|会员活跃度分析|留存会员&DWS层计算&加载&ADS层计算&加载&近三天留存会员计算|

摘要: 一、留存会员 ### 留存会员 ~~~ 留存会员与留存率:某段时间的新增会员,经过一段时间后,仍继续使用应用认为是 ~~~ 留存会员;这部分会员占当时新增会员的比例为留存率。 ~~~ 需求:1日、2日、3日的会员留存数和会员留存率 ~~~ 10W新会员:dws_member_add_day(dt=0 阅读全文

posted @ 2022-04-10 14:36 yanqi_vip 阅读(51) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&PB级数仓.V09|——|PB数仓.v09|会员活跃度分析|新增会员&DWS层计算&ADS层计算|

摘要: 一、新增会员DWS层计算 ### 创建DWS层表 ~~~ # 语法 use dws; drop table if exists dws.dws_member_add_day; create table dws.dws_member_add_day ( `device_id` string, `uid 阅读全文

posted @ 2022-04-10 14:34 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|会员活跃度分析|活跃会员&ADS建表&ADS加载数据|ODS_DWS_DWS_ADS脚本执行顺序|

摘要: 一、创建ADS层表 ### 计算当天、当周、当月活跃会员数量 ~~~ # 语法 use ads; drop table if exists ads.ads_member_active_count; create table ads.ads_member_active_count( `day_coun 阅读全文

posted @ 2022-04-10 14:33 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&PB级数仓.V08|——|PB数仓.v08|会员活跃度分析|新增会员&新增会员计算思路|

摘要: 一、新增会员 ### 新增会员 ~~~ 留存会员:某段时间的新增会员,经过一段时间后,仍继续使用应用认为是留存会员; ~~~ 新增会员:第一次使用应用的用户,定义为新增会员;卸载再次安装的设备,不会被算作一次新增。 ~~~ 新增会员先计算 => 计算会员留存 ### 案例分析: ~~~ # 需求:每 阅读全文

posted @ 2022-04-10 14:33 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|会员活跃度分析|DWD建表&加载数据|

摘要: 一、DWD层建表和数据加载 ### DWD层建表和数据加载 ~~~ 主要任务:ODS(包含json串) => DWD ~~~ json数据解析,丢弃无用数据(数据清洗),保留有效信息,并将数据展开,形成每日启动明细表。 2021-09-28 18:19:32.966 [main] INFO com. 阅读全文

posted @ 2022-04-10 14:32 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|会员活跃度分析|活跃会员&DWS建表&DWS加载数据|

摘要: 一、活跃会员 ### 活跃会员 ~~~ 活跃会员:打开应用的会员即为活跃会员; ~~~ 新增会员:第一次使用应用的用户,定义为新增会员; ~~~ 留存会员:某段时间的新增会员,经过一段时间后,仍继续使用应用认为是留存会员; ~~~ 活跃会员指标需求:每日、每周、每月的活跃会员数 ~~~ DWD:会员 阅读全文

posted @ 2022-04-10 14:32 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|会员活跃度分析|json数据处理&SerDe处理json数据|

摘要: 一、使用SerDe处理 ### 使用SerDe处理 ~~~ 序列化是对象转换为字节序列的过程;反序列化是字节序列恢复为对象的过程; ~~~ # 对象的序列化主要有两种用途: ~~~ 对象的持久化,即把对象转换成字节序列后保存到文件中 ~~~ 对象数据的网络传送 ~~~ SerDe 是Serializ 阅读全文

posted @ 2022-04-10 14:31 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|会员活跃度分析|json数据处理&使用UDF处理json串|

摘要: 一、使用UDF处理 ### 自定义UDF处理json串中的数组。自定义UDF函数: ~~~ 输入:json串、数组的key ~~~ 输出:字符串数组 二、创建一个maven项目 ### 创建一个maven项目:cn.yanqi.dw ### 添加pom.xml依赖 <dependency> <gro 阅读全文

posted @ 2022-04-10 14:30 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|会员活跃度分析|json数据处理&使用内建函数处理|

摘要: 一、json数据处理 ### json数据处理 ~~~ 数据文件中每行必须是一个完整的 json 串,一个 json串 不能跨越多行。 ~~~ # Hive 处理json数据总体来说有三个办法: ~~~ 使用内建的函数get_json_object、json_tuple ~~~ 使用自定义的UDF 阅读全文

posted @ 2022-04-10 14:29 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|会员活跃度分析|数据处理&ODS建表&加载数据|

摘要: 一、ODS建表和数据加载 ### ODS建表和数据加载 ~~~ ODS层的数据与源数据的格式基本相同。 二、创建ODS层表: ### 创建ODS层表 [root@hadoop02 ~]# hive ~~~ # 建表语句 use ODS; drop table if exists ods.ods_st 阅读全文

posted @ 2022-04-10 14:28 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:26 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|会员活跃度分析|自定义拦截器实现&测试|

摘要: 一、采集启动日志和事件日志 ### 采集启动日志和事件日志 ~~~ 本系统中要采集两种日志:启动日志、事件日志,不同的日志放置在不同的目录下。 ~~~ 要想一次拿到全部日志需要监控多个目录。 ### 总体思路 ~~~ taildir监控多个目录 ~~~ 修改自定义拦截器,不同来源的数据加上不同标志 阅读全文

posted @ 2022-04-10 14:21 yanqi_vip 阅读(66) 评论(0) 推荐(0)

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|会员活跃度分析|启动自定义拦截器采集日志|

摘要: 一、采集启动日志(使用自定义拦截器) ### 定义配置文件 [root@hadoop02 ~]# vim /data/yanqidw/conf/flume-log2hdfs2.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # taildir 阅读全文

posted @ 2022-04-10 14:18 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|会员活跃度分析|自定义拦截器实现&测试|

摘要: 一、自定义拦截器 ### 自定义拦截器 ~~~ 前面 Flume Agent 的配置使用了本地时间,可能导致数据存放的路径不正确。 ~~~ 要解决以上问题需要使用自定义拦截器。 ~~~ agent用于测试自定义拦截器。netcat source =>logger sink ### 创建自定义拦截器F 阅读全文

posted @ 2022-04-10 14:17 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|会员活跃度分析|agent配置&Flume配置|

摘要: 一、Agent的配置 ### 配置Flume.agent配置 [root@hadoop02 ~]# vim /data/yanqidw/conf/flume-log2hdfs1.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # taildir 阅读全文

posted @ 2022-04-10 14:16 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|会员活跃度分析|taildir/source|

摘要: 一、日志数据采集 ### 原始日志数据(一条启动日志) 2020-07-3014: 18: 47.339[ main ]INFOcom.yanqi.ecommerce.AppStart-{ "app_active": { "name": "app_active", "json": { "entry" 阅读全文

posted @ 2022-04-10 14:15 yanqi_vip 阅读(31) 评论(0) 推荐(0)

上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 69 下一页

导航