大数据 - 随笔分类(第2页) - 冰底熊

kafka压测和集群大小预估

摘要：Kafka常用命令 1）查看Kafka Topic列表 bin/kafka-topics.sh --zookeeper hadoop102:2181/kafka --list 2）创建Kafka Topic 进入到/opt/module/kafka/目录下创建日志主题 bin/kafka-topic 阅读全文

posted @ 2021-08-02 23:58 冰底熊

hadoop 吞吐量测试

摘要：基准测试 1）测试HDFS写性能测试内容：向HDFS集群写2个128M的文件 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 阅读全文

posted @ 2021-08-01 17:54 冰底熊

hadoop性能调优1

摘要：Hadoop参数调优 1）HDFS参数调优hdfs-site.xml The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address 阅读全文

posted @ 2021-08-01 17:12 冰底熊

hadoop 支持 LZO 压缩配置

摘要：1）hadoop 本身并不支持 lzo 压缩，故需要使用 twitter 提供的 hadoop-lzo 开源组件。hadoop lzo 需依赖 hadoop 和 lzo 进行编译，编译步骤如下。编译参照： https://www.cnblogs.com/allthewayforward/p/11 阅读全文

posted @ 2021-08-01 17:00 冰底熊

Hadoop群起脚本

摘要：Hadoop群起脚本 #!/bin/bash if [ $# -lt 1 ] then echo "No args input" fi case $1 in "start") echo " 启动hadoop集群 " echo " 启动hdfs " ssh hadoop102 "/opt/module 阅读全文

posted @ 2021-08-01 15:15 冰底熊

xsync分发脚本

摘要：分发脚本 #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 do echo $h 阅读全文

posted @ 2021-08-01 15:11 冰底熊

3. Spark SQL

摘要：DataFrame 类似于传统数据库中的二维表格。DataFrame 也是懒执行的，但性能上比 RDD 要高，主要原因：优化的执行计划，即查询计划通过 Spark catalyst optimiser 进行优化。 DataSet DataSet 是分布式数据集合。DataSet 是 DataFram 阅读全文

posted @ 2021-07-09 23:48 冰底熊

spark算子

摘要：日志处理配置 log4j.rootCategory=ERROR, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.append 阅读全文

posted @ 2021-06-30 06:47 冰底熊

1. idea spark scala 语言支持设置

摘要：Spark 版本为 3.0.0，默认采用的 Scala 编译版本为 2.12 1. 创建名为spark-project 的项目 2. 将src 删除，把spark-project 当成一个父项目，并在该项目下创建一个moule ,spark-core (子项目) 2.scala-idea 插件下载安阅读全文

posted @ 2021-06-26 07:58 冰底熊

hadoop面试

摘要：hadoop.apache.orgspark.apache.orgflink.apache.orghadoop :HDFS/YARN/MAPREDUCE HDFS读写流程 NameNode DataNode SecondaryNameNode 写流程 1. 客户端请求NameNode (几副本，bl 阅读全文

posted @ 2021-06-06 00:28 冰底熊

1.kafka

摘要：什么是Kafka 1.Apache Kafka是一个开源消息系统，由Scala写成。 2.Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server) 阅读全文

posted @ 2021-05-11 22:32 冰底熊

2.flink

摘要：Flink 运行时的组件作业管理器（JobManager） •控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager 所控制执行。 •JobManager 会先接收到要执行的应用程序，这个应用程序会包括：作业图（JobGraph）、逻辑数据流图（logical d 阅读全文

posted @ 2021-05-11 08:19 冰底熊阅读(73) 评论(0) 推荐(0)

1. flink 基础

摘要：flink word count 程序 1. 数据集模式 pom.xml 文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://ww 阅读全文

posted @ 2021-05-09 12:07 冰底熊

Hbase 项目

摘要：需求分析 1) 微博内容的浏览，数据库表设计 2) 用户社交体现：关注用户，取关用户 3) 拉取关注的人的微博内容表结构代码实现 1) 创建命名空间以及表名的定义 2) 创建微博内容表 3) 创建用户关系表 4) 创建用户微博内容接收邮件表 5) 发布微博内容 6) 添加关注用户 7) 移除（取阅读全文

posted @ 2021-05-08 23:49 冰底熊

Hbase API操作

摘要：Hbase API表操作 1.创建工程 2. pom.xml 文件，添加依赖（红色部分） <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http 阅读全文

posted @ 2021-04-27 07:25 冰底熊

zookeeper

摘要：下载地址 https://zookeeper.apache.org/ zk 的数据结构 Zookeeper安装 1．安装前准备（1）安装Jdk （2）拷贝Zookeeper安装包到Linux系统下（3）解压到指定目录 [a@hadoop102 software]$ tar -zxvf zooke 阅读全文

posted @ 2021-04-24 17:08 冰底熊

hive DML 操作

摘要：数据导入向表中装载数据（Load） 1.语法 load data [local] inpath '数据的 path' [overwrite] into table student [partition (partcol1=val1,…)]; （1）load data:表示加载数据（2）local 阅读全文

posted @ 2021-03-27 07:36 冰底熊

hive表DDL操作

摘要：1）启动 Hive bin/hive 2）使用 Hive hive> show databases; hive> show tables; hive> create table test (id int); hive> insert into test values(1); hive> select 阅读全文

posted @ 2021-03-27 05:29 冰底熊

3. hive 常用函数

摘要：常用日期函数 1.返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd'); 2.将时间戳转为日期格式select from_unixtime(1603843200); 3.当前日期阅读全文

posted @ 2021-03-23 20:03 冰底熊

2 hive 函数

摘要：hive wordcount #####hive中的wordcount # 原始数据 /opt/data/words.txt # 创建表 create table words(name string); # 加载数据 load data local inpath '/opt/data/words.t 阅读全文

posted @ 2021-03-23 19:56 冰底熊

侠客云

随笔分类 - 大数据

公告