随笔分类 -  大数据架构

摘要:要在已经安装好Spark的集群上配置YARN(Yet Another Resource Negotiator),你可以按照以下步骤进行: 1. 安装 Hadoop 1.1 下载 Hadoop YARN是Hadoop的一部分,因此首先需要安装Hadoop。你可以从Apache Hadoop的官方网站下 阅读全文
posted @ 2024-10-22 11:14 ZH谢工 阅读(131) 评论(0) 推荐(0)
摘要:1. 配置Master vi $SPARK_HOME/conf/spark-env.sh export SPARK_MASTER_HOST=192.168.130.126 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export 阅读全文
posted @ 2024-10-18 08:50 ZH谢工 阅读(89) 评论(0) 推荐(0)
摘要:1. 下载VMWare, 安装CentOS9虚拟机 2. 配置用户,创建目录 2.1. 以管理员身份登录,创建Spark用户给Spark使用 sudo adduser sparkuser 2.2. 修改新用户密码 (123456) sudo passwd sparkuser 2.3. 给新用户Spa 阅读全文
posted @ 2024-10-16 19:00 ZH谢工 阅读(142) 评论(0) 推荐(0)
摘要:公司内部的大数据架构师提出的架构中,分为两层。 第一层叫数据湖,基本原则按照数据源格式存储所有数据。第二层叫Data Hub,存储加工处理后的数据。供应用层是应用。 数据湖内部又可以分为三个层: 第一层: 原始数据层,这个层是个临时数据存储层,只是临时存储从数据源采集的数据。转入下一层后,就被删除了 阅读全文
posted @ 2021-12-12 21:11 ZH谢工 阅读(4044) 评论(0) 推荐(0)
摘要:问题: 生产过程数据主要存放在MES系统中,例如订单的最新生产情况,产量数据,问题Lot情况等。对于大数据分析,业务部门希望可以基于及时的数据进行分析展示。 但是MES系统的数据不仅包含仅有insert的历史数据表,同时有很多包含Insert/Update/Delete的事务表。如何将这些数据加载到 阅读全文
posted @ 2021-11-25 11:25 ZH谢工 阅读(172) 评论(0) 推荐(0)