随笔分类 -  大数据

摘要:Kafka常用命令 1)查看Kafka Topic列表 bin/kafka-topics.sh --zookeeper hadoop102:2181/kafka --list 2)创建Kafka Topic 进入到/opt/module/kafka/目录下创建日志主题 bin/kafka-topic 阅读全文
posted @ 2021-08-02 23:58 冰底熊
摘要:基准测试 1) 测试HDFS写性能 测试内容:向HDFS集群写2个128M的文件 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 阅读全文
posted @ 2021-08-01 17:54 冰底熊
摘要:Hadoop参数调优 1)HDFS参数调优hdfs-site.xml The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address 阅读全文
posted @ 2021-08-01 17:12 冰底熊
摘要:1)hadoop 本身并不支持 lzo 压缩,故需要使用 twitter 提供的 hadoop-lzo 开源组件。hadoop lzo 需依赖 hadoop 和 lzo 进行编译,编译步骤如下。 编译参照: https://www.cnblogs.com/allthewayforward/p/11 阅读全文
posted @ 2021-08-01 17:00 冰底熊
摘要:Hadoop群起脚本 #!/bin/bash if [ $# -lt 1 ] then echo "No args input" fi case $1 in "start") echo " 启动hadoop集群 " echo " 启动hdfs " ssh hadoop102 "/opt/module 阅读全文
posted @ 2021-08-01 15:15 冰底熊
摘要:分发脚本 #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 do echo $h 阅读全文
posted @ 2021-08-01 15:11 冰底熊
摘要:DataFrame 类似于传统数据库中的二维表格。DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。 DataSet DataSet 是分布式数据集合。DataSet 是 DataFram 阅读全文
posted @ 2021-07-09 23:48 冰底熊
摘要:日志处理配置 log4j.rootCategory=ERROR, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.append 阅读全文
posted @ 2021-06-30 06:47 冰底熊
摘要:Spark 版本为 3.0.0,默认采用的 Scala 编译版本为 2.12 1. 创建名为spark-project 的项目 2. 将src 删除,把spark-project 当成一个父项目,并在该项目下创建一个moule ,spark-core (子项目) 2.scala-idea 插件下载安 阅读全文
posted @ 2021-06-26 07:58 冰底熊
摘要:hadoop.apache.orgspark.apache.orgflink.apache.orghadoop :HDFS/YARN/MAPREDUCE HDFS读写流程 NameNode DataNode SecondaryNameNode 写流程 1. 客户端请求NameNode (几副本,bl 阅读全文
posted @ 2021-06-06 00:28 冰底熊
摘要:什么是Kafka 1.Apache Kafka是一个开源消息系统,由Scala写成。 2.Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server) 阅读全文
posted @ 2021-05-11 22:32 冰底熊
摘要:Flink 运行时的组件 作业管理器(JobManager) •控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。 •JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical d 阅读全文
posted @ 2021-05-11 08:19 冰底熊 阅读(63) 评论(0) 推荐(0)
摘要:flink word count 程序 1. 数据集模式 pom.xml 文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://ww 阅读全文
posted @ 2021-05-09 12:07 冰底熊
摘要:需求分析 1) 微博内容的浏览,数据库表设计 2) 用户社交体现:关注用户,取关用户 3) 拉取关注的人的微博内容 表结构 代码实现 1) 创建命名空间以及表名的定义 2) 创建微博内容表 3) 创建用户关系表 4) 创建用户微博内容接收邮件表 5) 发布微博内容 6) 添加关注用户 7) 移除(取 阅读全文
posted @ 2021-05-08 23:49 冰底熊
摘要:Hbase API表操作 1.创建工程 2. pom.xml 文件,添加依赖(红色部分) <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http 阅读全文
posted @ 2021-04-27 07:25 冰底熊
摘要:下载地址 https://zookeeper.apache.org/ zk 的数据结构 Zookeeper安装 1.安装前准备 (1)安装Jdk (2)拷贝Zookeeper安装包到Linux系统下 (3)解压到指定目录 [a@hadoop102 software]$ tar -zxvf zooke 阅读全文
posted @ 2021-04-24 17:08 冰底熊
摘要:数据导入 向表中装载数据(Load) 1.语法 load data [local] inpath '数据的 path' [overwrite] into table student [partition (partcol1=val1,…)]; (1)load data:表示加载数据 (2)local 阅读全文
posted @ 2021-03-27 07:36 冰底熊
摘要:1)启动 Hive bin/hive 2)使用 Hive hive> show databases; hive> show tables; hive> create table test (id int); hive> insert into test values(1); hive> select 阅读全文
posted @ 2021-03-27 05:29 冰底熊
摘要:常用日期函数 1.返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd'); 2.将时间戳转为日期格式select from_unixtime(1603843200); 3.当前日期 阅读全文
posted @ 2021-03-23 20:03 冰底熊
摘要:hive wordcount #####hive中的wordcount # 原始数据 /opt/data/words.txt # 创建表 create table words(name string); # 加载数据 load data local inpath '/opt/data/words.t 阅读全文
posted @ 2021-03-23 19:56 冰底熊