摘要:
组件版本 jdk-8u261-linux-x64 centOS 7.6 Cloudera Manager: 6.2.1 CDH: 6.2.1 Hadoop:3.0.0-cdh6.2.1 HBase:2.1.0-cdh6.2.1 Hive:2.1.1-cdh6.2.1 Kafka:2.1.1-cdh6 阅读全文
posted @ 2020-07-28 22:45
园狐
阅读(4104)
评论(3)
推荐(1)
摘要:
集群Linux环境搭建 组件版本 centOS 7.6 jdk 1.8 zookeeper 3.4.9 Hadoop 2.7.5 mysql 驱动 mysql-connector-java-5.1.38.jar hive 2.1.1 sqoop kafka2.11 Hbase1.4.9 Sqoop1 阅读全文
posted @ 2020-07-28 22:05
园狐
阅读(408)
评论(0)
推荐(0)
摘要:
大数据架构 源数据层(原始数据存储位置) sdk日志埋点 日志文件:爬虫日志、业务日志 关系型数据库:mysql,oracle等 数据采集层(抽取源数据至数据存储层) 离线:flume、Sqoop、Nifi 实时:filebeat、nginx+lua 补充:当数据量达到5亿左右的时候,filebea 阅读全文
posted @ 2020-07-28 17:48
园狐
阅读(939)
评论(0)
推荐(0)
摘要:
Kudu 的应用场景是什么? 设计一个项目,分析其特点,设计方案,选取最佳处理方案 需求:做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析 项目特点 1. 数据量大 - 有一个非常重大的挑战, 就是这些设备可能很多, 其所产生的事件记录可能也很大, 所以需要对设备进行数据收集和分析的话, 阅读全文
posted @ 2020-07-28 16:28
园狐
阅读(413)
评论(0)
推荐(0)
摘要:
集群搭建及工具使用 身为大数据开发工程师,对数据从采集、接入、流处理、批处理到数据存储、数据分析和数据可视化等一整套流程都要了解,包括的组件非常多。 做数据流处理需要掌握spark、flink、storm、kafka stream等。 做批处理需要掌握hadoop、hive等,数据存储需要掌握hdf 阅读全文
posted @ 2020-07-28 11:15
园狐
阅读(411)
评论(0)
推荐(0)