随笔分类 - 大数据架构
摘要:要在已经安装好Spark的集群上配置YARN(Yet Another Resource Negotiator),你可以按照以下步骤进行: 1. 安装 Hadoop 1.1 下载 Hadoop YARN是Hadoop的一部分,因此首先需要安装Hadoop。你可以从Apache Hadoop的官方网站下
阅读全文
摘要:1. 配置Master vi $SPARK_HOME/conf/spark-env.sh export SPARK_MASTER_HOST=192.168.130.126 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export
阅读全文
摘要:1. 下载VMWare, 安装CentOS9虚拟机 2. 配置用户,创建目录 2.1. 以管理员身份登录,创建Spark用户给Spark使用 sudo adduser sparkuser 2.2. 修改新用户密码 (123456) sudo passwd sparkuser 2.3. 给新用户Spa
阅读全文
摘要:公司内部的大数据架构师提出的架构中,分为两层。 第一层叫数据湖,基本原则按照数据源格式存储所有数据。第二层叫Data Hub,存储加工处理后的数据。供应用层是应用。 数据湖内部又可以分为三个层: 第一层: 原始数据层,这个层是个临时数据存储层,只是临时存储从数据源采集的数据。转入下一层后,就被删除了
阅读全文
摘要:问题: 生产过程数据主要存放在MES系统中,例如订单的最新生产情况,产量数据,问题Lot情况等。对于大数据分析,业务部门希望可以基于及时的数据进行分析展示。 但是MES系统的数据不仅包含仅有insert的历史数据表,同时有很多包含Insert/Update/Delete的事务表。如何将这些数据加载到
阅读全文

浙公网安备 33010602011771号