日报 - 随笔分类(第7页) - jsqup

案例三：启动一个采集脚本，可以实现同时监听端口数据和目录数据，并且监听的端口数据和目录数据都输出到logger控制台

摘要：编写脚本 [root@node1 data]# cat dirandportToLogger.conf # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel，以及每一个source的别名 a1.sources = r1 r2 a1.sinks 阅读全文

posted @ 2022-08-05 17:14 jsqup 阅读(37) 评论(0) 推荐(0)

案例二：监控一个目录下的文件变动，如果目录下有新文件产生，将新文件信息输出到flume日志中

摘要：案例说明 source：spooling directory Source 监控指定目录内数据变更编写脚本 # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel，>以及每一个source的别名 a1.sources = r1 a1.sink 阅读全文

posted @ 2022-08-05 16:46 jsqup 阅读(141) 评论(0) 推荐(0)

flume案例一：监听端口数据到flume日志中

摘要：案例说明数据源：netcat source 目的地：logger Sink source：netcat，host，post channel：基于内存的缓冲池 memory sink：logger 配置文件 [root@node1 data]# vim portToLogger.conf [root 阅读全文

posted @ 2022-08-05 15:53 jsqup 阅读(132) 评论(0) 推荐(0)

flume采集数据及环境配置

摘要：Flume采集数据的工作图 Flume采集数据的工作流程 Flume配置过程 [root@node1 ~]# pwd /opt/software/ [root@node1 software]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /opt/app/ 阅读全文

posted @ 2022-08-05 12:12 jsqup 阅读(82) 评论(0) 推荐(0)

大数据开发流程

摘要：![](https://img2022.cnblogs.com/blog/2487693/202208/2487693-20220805100048052-573136045.png) 阅读全文

posted @ 2022-08-05 10:02 jsqup 阅读(27) 评论(0) 推荐(0)

sqoop将数据的导入和导出

摘要：1. 在mysql中创建表 2. 导入hdfs中 # 将表student导入hdfs中 sqoop import --connect jdbc:mysql://node1:3306/shixun?serverTimezone=UTC --username root --password Jsq123 阅读全文

posted @ 2022-08-04 22:40 jsqup 阅读(183) 评论(0) 推荐(0)

sqoop初配置

摘要：配置环境 1. 将jar包上传至/opt/software目录下 2. 解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/app/ 3. 改名字 mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop-1.4. 阅读全文

posted @ 2022-08-04 16:54 jsqup 阅读(29) 评论(0) 推荐(0)

udtf一进多出案例2

摘要：pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance 阅读全文

posted @ 2022-08-04 16:12 jsqup 阅读(37) 评论(0) 推荐(0)

自定义udtf函数（一进多出）

摘要：案例要求 java编写 package udtf; import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.metadata.HiveException; import 阅读全文

posted @ 2022-08-04 13:20 jsqup 阅读(167) 评论(0) 推荐(0)

自定义udf函数（一进一出）

摘要：1. 添加maven依赖一、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XML 阅读全文

posted @ 2022-08-04 11:04 jsqup 阅读(179) 评论(0) 推荐(0)

explode与lateral view详解

摘要：1. explode炸裂一行的数据求一个界面的广告数量 page adid page1 1 page1 2 page1 3 page1 4 [root@node1 data]# cat ad.txt page1,1_3_5_9_10_56 page2,30_123_34_7_9_10 page3, 阅读全文

posted @ 2022-08-03 18:59 jsqup 阅读(175) 评论(0) 推荐(0)

hive中的重要的函数

摘要：函数分类 UDF函数：一进一出，length UDAF函数：多进一出，聚合函数：sum、count UDTF函数：一进多出，explode、split 查看函数用法查看系统自带的函数： show functions; 显示自带的函数的用法： desc functions 函数名; 详细显示自带的函阅读全文

posted @ 2022-08-03 12:04 jsqup 阅读(36) 评论(0) 推荐(0)

hive

摘要：hive的执行命令 beeline的使用规则需要配置hiveserver2 hive的配置文件：hive-site.xml <property> <name>hive.server2.authentication</name> <value>NONE</value> </property> <pr 阅读全文

posted @ 2022-08-01 11:53 jsqup 阅读(26) 评论(0) 推荐(0)

outputFormat的使用

摘要：1. 文本输出TextOutputFormat 默认的输出格式，把每条记录写为文本行默认分隔符定义是：\t 即 key\tvalue 将最终输出的key、value数据以指定的分隔符（默认是\t）将key value拼接，然后以字符串（普通的文本数据）写出到结果文件中分隔符可以自定义: conf 阅读全文

posted @ 2022-07-30 18:08 jsqup 阅读(151) 评论(0) 推荐(0)

combiner

摘要：定义：继承Reducer类，Combiner就是一个Reducer，但是处理的是某一个map的输出数据数据写出到reducer了 job.setCombinerClass(WCCombiner.class); // 输入类型是map阶段的输出类型，输出类型一般是map阶段的输出类型 class 阅读全文

posted @ 2022-07-30 14:49 jsqup 阅读(29) 评论(0) 推荐(0)

mr的详细的工作流程

摘要：![](https://img2022.cnblogs.com/blog/2487693/202207/2487693-20220729220216076-598810272.png) 阅读全文

posted @ 2022-07-29 22:11 jsqup 阅读(50) 评论(0) 推荐(0)

hive配置的学习

摘要：[root@node1 conf]# mv hive-env.sh.template hive-env.sh [root@node1 conf]# vi hive-env.sh export HIVE_CONF_DIR=/opt/app/hive-2.3.8/conf export HADOOP_H 阅读全文

posted @ 2022-07-29 18:35 jsqup 阅读(48) 评论(0) 推荐(0)

hadoop的企业优化

摘要：1. Mapreduce 1. 计算机性能 CPU、内存、磁盘、网络 2. IO操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长，导致reduce等待时间过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)Spill溢出次数过多 (7)Merge次阅读全文

posted @ 2022-07-29 11:12 jsqup 阅读(27) 评论(0) 推荐(0)

开启日志聚合

摘要：[root@node1 hadoop]# cat mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apa 阅读全文

posted @ 2022-07-29 09:36 jsqup 阅读(34) 评论(0) 推荐(0)

mapreduce中的shuffle机制

摘要：分区的默认方式hashpartitioner public int getPartition(K2 key, V2 value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } 阅读全文

posted @ 2022-07-29 08:32 jsqup 阅读(30) 评论(0) 推荐(0)

jsqup

随笔分类 - 日报

公告