会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
jsqup
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
11
12
13
14
15
16
17
18
19
···
33
下一页
2022年8月11日
7. 关于数据迁移的相关_项目一
摘要: 第一次导入数据 [root@node1 dataExport]# cat export.sh #!/bin/bash echo " 导出age_pvs表数据(覆盖写)程序启动 " sqoop export --connect "jdbc:mysql://node1:3306/project?serv
阅读全文
posted @ 2022-08-11 08:13 jsqup
阅读(24)
评论(0)
推荐(0)
2022年8月10日
6. 数据迁移_项目一
摘要: 数据导出,先创建表 create database project charset "utf8"; use project; create table month_pvs( visit_year varchar(20), visit_month varchar(20), pvs int ); cre
阅读全文
posted @ 2022-08-10 13:58 jsqup
阅读(35)
评论(0)
推荐(0)
5. 数据分析统计的指标_项目一
摘要: 数据分析指标 1. 基于时间维度(①每月用户的访问指标 ②每天用户的访问指标 ③每小时用户的访问指标) 重写数据 2. 基于用户维度(不同年龄段用户的访问量指标) 重写数据 3. 基于地理维度(每个分区下不同省份用户的访问指标) 追加数据 创建时间维度表及导入数据 /* * 统计分析 */ -- 1
阅读全文
posted @ 2022-08-10 13:53 jsqup
阅读(137)
评论(0)
推荐(0)
2022年8月9日
4.明细宽表_项目一
摘要: 明细宽表的构建及数据加载 -- 明细宽表 相当于在贴源数据表的基础之上,增加了9个字段,时间字段增加6个,请求字段增加了3个 create external table if not exists web_detail( ipaddr string comment "ip address", vis
阅读全文
posted @ 2022-08-09 23:39 jsqup
阅读(106)
评论(0)
推荐(0)
3.动态分区的解决方案(将配置文件改成清洗昨天的数据)_将数据导入hive中_项目一
摘要: 动态分区问题的解决 在dataClean.sh中清洗数据前,创建一个动态时间变量 timeStr=`date -d "yesterday" "+%Y%m%d"` 在dataAnaly.sh中执行 yesterday=`date -d "yesterday" "+%Y%d%m"` hive --hiv
阅读全文
posted @ 2022-08-09 16:42 jsqup
阅读(55)
评论(0)
推荐(0)
2.清洗数据_项目一
摘要: 说明 通过编写mapreduce,来清洗数据 清洗的原始数据格式: 180.153.11.130 - - 2018-03-18 11:42:44 "POST https://www.taobao.com/category/d HTTP/1.1" 200 12901 https://www.taoba
阅读全文
posted @ 2022-08-09 12:18 jsqup
阅读(73)
评论(0)
推荐(0)
2022年8月8日
1. 采集数据_项目一
摘要: 说明 用户点击页面后数据存储到a.log文件中。(本项目省去了这一步,数据已经在a.log中了) 使用java代码将a.log文件中的数据,写入project.log中。 使用flume采集日志,监控project.log文件内容的变化,将新增的用户的数据写出到hdfs上。 a.log中的现成数据
阅读全文
posted @ 2022-08-08 23:29 jsqup
阅读(60)
评论(0)
推荐(0)
2022年8月6日
案例九:启动flume采集程序,其中采集两个数据源的数据,其中第一个数据源是服务器1上的端口数据。第二个数据源是服务器2上的目录数据。现在实现将服务器1和服务器2数据源上的数据统一输出到flume日志中
摘要: 说明 source: 2 channel: 1 sink: 1 注意: sink type: avro hostname: node port source type: avro bind: node1 port 画图理解 配置文件 服务器1的配置文件 [root@node1 oneother]#
阅读全文
posted @ 2022-08-06 14:46 jsqup
阅读(65)
评论(0)
推荐(0)
案例七:启动一个flume采集数据程序,要求采集指定端口、指定目录、指定文件的数据,其中端口数据发送到HDFS和flume日志中,目录数据只发送给hdfs、文件数据只发送给logger
摘要: 说明 source: 3 channel: 2 sink: 2 画图理解 配置文件编写 [root@node1 data]# cat portAndDirAndFileToHDFSAndFlumeAndLogger.conf # 给flume采集进程agent起了一个别名 a1 # 定义flume进
阅读全文
posted @ 2022-08-06 11:15 jsqup
阅读(86)
评论(0)
推荐(0)
案例八:多flume案例
摘要: 画图理解 配置文件编写 第一个服务器 [root@node1 one]# cat fileToFlume.conf one.sources = r1 one.sinks = k1 one.channels = c1 one.sources.r1.type = exec one.sources.r1.
阅读全文
posted @ 2022-08-06 11:05 jsqup
阅读(41)
评论(0)
推荐(0)
上一页
1
···
11
12
13
14
15
16
17
18
19
···
33
下一页
公告