日报 - 随笔分类(第6页) - jsqup

摘要：配置 1. 上传.tgz包 2. 解压 tar -zxvf scala-2.11.12.tgz -C /opt/app/ 3. 配置环境创建scala项目添加maven 阅读全文

posted @ 2022-08-15 12:07 jsqup 阅读(22) 评论(0) 推荐(0)

摘要：编写脚本文件压缩成zip包，上传至azkaban 阅读全文

posted @ 2022-08-12 18:44 jsqup 阅读(27) 评论(0) 推荐(0)

摘要：下载azkaban后，得通过自己编译得到jar包注意：编译需要很长时间，这儿直接获取了在mysql中执行SQL文件 1、把hive的lib目录下的derby驱动jar包拷贝到web-server，exec-server的lib目录 [root@node1 web-server]# cp /opt 阅读全文

posted @ 2022-08-12 16:03 jsqup 阅读(141) 评论(0) 推荐(0)

可视化爬虫工具（八爪鱼）的使用

摘要：搜索要找到的内容输入网址进行搜索采集完成点击生成采集设置采集到本地进行采集数据导出数据导出数据到csc文件导出数据到mysql中 1. 删除一些字段 2. 删除后的字段 3. 在MySQL中创建表 4. 重新采集数据 5. 采集到数据库中 6. 选择数据库连接信息 7. 配置字段映射阅读全文

posted @ 2022-08-11 14:09 jsqup 阅读(555) 评论(0) 推荐(0)

9. 重新创建项目及可视化编写(maven+web)_项目一

摘要：1. 创建空的maven项目 2. 添加web项目添加web项目后的结构 3. 配置tomcat 4. 导入jar包来运行servlet 5. pom.xml文件编写 <dependencies> <dependency> <groupId>mysql</groupId> <artifactId> 阅读全文

posted @ 2022-08-11 13:09 jsqup 阅读(78) 评论(0) 推荐(0)

8. 数据可视化_项目一

摘要：创建web项目显示效果图代码效果图步骤 <!DOCTYPE html> <html lang="en">  <head> <meta charset="UTF-8"> <tit 阅读全文

posted @ 2022-08-11 09:20 jsqup 阅读(36) 评论(0) 推荐(0)

7. 关于数据迁移的相关_项目一

摘要：第一次导入数据 [root@node1 dataExport]# cat export.sh #!/bin/bash echo " 导出age_pvs表数据(覆盖写)程序启动 " sqoop export --connect "jdbc:mysql://node1:3306/project?serv 阅读全文

posted @ 2022-08-11 08:13 jsqup 阅读(27) 评论(0) 推荐(0)

6. 数据迁移_项目一

摘要：数据导出，先创建表 create database project charset "utf8"; use project; create table month_pvs( visit_year varchar(20), visit_month varchar(20), pvs int ); cre 阅读全文

posted @ 2022-08-10 13:58 jsqup 阅读(37) 评论(0) 推荐(0)

5. 数据分析统计的指标_项目一

摘要：数据分析指标 1. 基于时间维度（①每月用户的访问指标 ②每天用户的访问指标 ③每小时用户的访问指标）重写数据 2. 基于用户维度（不同年龄段用户的访问量指标）重写数据 3. 基于地理维度（每个分区下不同省份用户的访问指标）追加数据创建时间维度表及导入数据 /* * 统计分析 */ -- 1 阅读全文

posted @ 2022-08-10 13:53 jsqup 阅读(143) 评论(0) 推荐(0)

4.明细宽表_项目一

摘要：明细宽表的构建及数据加载 -- 明细宽表相当于在贴源数据表的基础之上，增加了9个字段，时间字段增加6个，请求字段增加了3个 create external table if not exists web_detail( ipaddr string comment "ip address", vis 阅读全文

posted @ 2022-08-09 23:39 jsqup 阅读(108) 评论(0) 推荐(0)

3.动态分区的解决方案(将配置文件改成清洗昨天的数据)_将数据导入hive中_项目一

摘要：动态分区问题的解决在dataClean.sh中清洗数据前，创建一个动态时间变量 timeStr=`date -d "yesterday" "+%Y%m%d"` 在dataAnaly.sh中执行 yesterday=`date -d "yesterday" "+%Y%d%m"` hive --hiv 阅读全文

posted @ 2022-08-09 16:42 jsqup 阅读(63) 评论(0) 推荐(0)

2.清洗数据_项目一

摘要：说明通过编写mapreduce，来清洗数据清洗的原始数据格式： 180.153.11.130 - - 2018-03-18 11:42:44 "POST https://www.taobao.com/category/d HTTP/1.1" 200 12901 https://www.taoba 阅读全文

posted @ 2022-08-09 12:18 jsqup 阅读(77) 评论(0) 推荐(0)

1. 采集数据_项目一

摘要：说明用户点击页面后数据存储到a.log文件中。（本项目省去了这一步，数据已经在a.log中了）使用java代码将a.log文件中的数据，写入project.log中。使用flume采集日志，监控project.log文件内容的变化，将新增的用户的数据写出到hdfs上。 a.log中的现成数据阅读全文

posted @ 2022-08-08 23:29 jsqup 阅读(63) 评论(0) 推荐(0)

案例九：启动flume采集程序，其中采集两个数据源的数据，其中第一个数据源是服务器1上的端口数据。第二个数据源是服务器2上的目录数据。现在实现将服务器1和服务器2数据源上的数据统一输出到flume日志中

摘要：说明 source: 2 channel: 1 sink: 1 注意： sink type: avro hostname: node port source type: avro bind: node1 port 画图理解配置文件服务器1的配置文件 [root@node1 oneother]# 阅读全文

posted @ 2022-08-06 14:46 jsqup 阅读(68) 评论(0) 推荐(0)

案例七：启动一个flume采集数据程序，要求采集指定端口、指定目录、指定文件的数据，其中端口数据发送到HDFS和flume日志中，目录数据只发送给hdfs、文件数据只发送给logger

摘要：说明 source: 3 channel: 2 sink: 2 画图理解配置文件编写 [root@node1 data]# cat portAndDirAndFileToHDFSAndFlumeAndLogger.conf # 给flume采集进程agent起了一个别名 a1 # 定义flume进阅读全文

posted @ 2022-08-06 11:15 jsqup 阅读(90) 评论(0) 推荐(0)

案例八：多flume案例

摘要：画图理解配置文件编写第一个服务器 [root@node1 one]# cat fileToFlume.conf one.sources = r1 one.sinks = k1 one.channels = c1 one.sources.r1.type = exec one.sources.r1. 阅读全文

posted @ 2022-08-06 11:05 jsqup 阅读(46) 评论(0) 推荐(0)

案例六：启动一个采集数据进程，采集端口和文件内容数据，其中端口数据输出到flume日志中，同时需要输出到HDFS上，文件内容只需要输出到HDFS上

摘要：说明 source: 2 channel: 2 sink: 2 配置文件 # 给flume采集进程agent起了一个别名 a1 # 定义flume进程中有几个source 以及每一个source的别名 a1.sources = r1 r2 a1.sinks = k1 k2 a1.channels = 阅读全文

posted @ 2022-08-06 09:28 jsqup 阅读(34) 评论(0) 推荐(0)

案例五：启动一个采集数据进程，将监听到的端口数据输出到HDFS分布式文件系统上

摘要：说明 source: netcat sink: hdfs 脚本编写 # 给flume采集进程agent起了一个别名 a1 # 定义flume进程中有几个source 以及每一个source的别名 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 定义f 阅读全文

posted @ 2022-08-06 08:25 jsqup 阅读(43) 评论(0) 推荐(0)

关于flume的对应关系及常用的source

摘要：对应关系在一个Flume进程中，source、channel、sink的关系是：1个source可以绑定多个channel，一个channel只能绑定1个sink。 source和channel是一对多的关系，sink和channel是一对一的关系。 source spooldir和exec的ta 阅读全文

posted @ 2022-08-05 17:36 jsqup 阅读(187) 评论(0) 推荐(0)

案例四：启动一个采集数据脚本，监听一个文件内容变化，将监听到的文件内容变化输出到flume日志中

摘要：说明数据源：exec，这里命令是tail -F 目的地/下沉地：flume日志编写脚本 # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel，以及每一个source的别名 a1.sources = r1 a1.sinks = k1 a1. 阅读全文

posted @ 2022-08-05 17:33 jsqup 阅读(61) 评论(0) 推荐(0)

jsqup

随笔分类 - 日报

公告