大数据架构 - 随笔分类 - ZH谢工

3. 从0到1搭建DeltaLake大数据平台 - 安装配置Hadoop

摘要：要在已经安装好Spark的集群上配置YARN（Yet Another Resource Negotiator），你可以按照以下步骤进行： 1. 安装 Hadoop 1.1 下载 Hadoop YARN是Hadoop的一部分，因此首先需要安装Hadoop。你可以从Apache Hadoop的官方网站下阅读全文

posted @ 2024-10-22 11:14 ZH谢工阅读(152) 评论(0) 推荐(0)

2. 从0到1搭建DeltaLake大数据平台 - 配置Spark集群

摘要：1. 配置Master vi $SPARK_HOME/conf/spark-env.sh export SPARK_MASTER_HOST=192.168.130.126 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export 阅读全文

posted @ 2024-10-18 08:50 ZH谢工阅读(102) 评论(0) 推荐(0)

1. 从0到1搭建DeltaLake大数据平台 - Spark安装

摘要：1. 下载VMWare，安装CentOS9虚拟机 2. 配置用户，创建目录 2.1. 以管理员身份登录，创建Spark用户给Spark使用 sudo adduser sparkuser 2.2. 修改新用户密码（123456） sudo passwd sparkuser 2.3. 给新用户Spa 阅读全文

posted @ 2024-10-16 19:00 ZH谢工阅读(149) 评论(0) 推荐(0)

数据底座

摘要：公司内部的大数据架构师提出的架构中，分为两层。第一层叫数据湖，基本原则按照数据源格式存储所有数据。第二层叫Data Hub，存储加工处理后的数据。供应用层是应用。数据湖内部又可以分为三个层：第一层：原始数据层，这个层是个临时数据存储层，只是临时存储从数据源采集的数据。转入下一层后，就被删除了阅读全文

posted @ 2021-12-12 21:11 ZH谢工阅读(4060) 评论(0) 推荐(0)

关系型数据库的数据采集

摘要：问题：生产过程数据主要存放在MES系统中，例如订单的最新生产情况，产量数据，问题Lot情况等。对于大数据分析，业务部门希望可以基于及时的数据进行分析展示。但是MES系统的数据不仅包含仅有insert的历史数据表，同时有很多包含Insert/Update/Delete的事务表。如何将这些数据加载到阅读全文

posted @ 2021-11-25 11:25 ZH谢工阅读(179) 评论(0) 推荐(0)

BI, AI, 大数据学习

心若有所向往,何惧道阻且长; 但愿每一个人都像星星一样安详而从容的,不断沿着既定的目标走完自己的路程.

随笔分类 - 大数据架构

公告