摘要: 1 元数据概述 阿里常见的技术元数据: 1 分布式计算系统存储元数据,如MaxCompute表、列、分区等信息。记录了表的表名、分区信息、责任人信息、文件大小、表类型、生命周期,以及列的字段名、字段类型、字段备注、是否是分区字段等系统。 2 分布式计算系统运行元数据,如MaxCompute上所有作业 阅读全文
posted @ 2018-04-10 21:10 谦如尘埃风过隙 阅读(216) 评论(0) 推荐(0) 编辑
摘要: MongoDB数据库 什么是MongoDB ? MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。 在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档,数据结 阅读全文
posted @ 2018-04-10 09:09 谦如尘埃风过隙 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 1--给裸机装系统centos7 2--配置静态IP: vim /etc/sysconfig/network-scripts/ifcfg-ens33 BOOTPROTO=static ONBOOT=yes GATEWAY=192.168.1.2 IPADDR=192.168.1.101 NETMAS 阅读全文
posted @ 2018-04-09 10:54 谦如尘埃风过隙 阅读(900) 评论(0) 推荐(0) 编辑
摘要: spark作业性能调优 优化的目标 一、开发调优: RDD lineage,也就是“RDD的血缘关系链” 开发RDD lineage极其冗长的Spark作业时,创建多个代表相同数据的RDD,进而增加了作业的性能开销。 比如说,有一个RDD的数据格式是key-value类型的,另一个是单value类型 阅读全文
posted @ 2018-04-09 07:14 谦如尘埃风过隙 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: 本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结。 如果你想入门大数据,可以对他们进行简单的了解。 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章。 如果你想选择一个适合自己公司的大数据工具,也可以参考这篇文章。 我们将针对大数据开源工具不同的用处来进行分 阅读全文
posted @ 2018-04-08 23:44 谦如尘埃风过隙 阅读(6326) 评论(0) 推荐(0) 编辑
摘要: 1、安装虚拟机并配置静态IP 1、配置网络IP vim /etc/sysconfig/network-scripts/ifcfg-eth0 IPADDR=192.168.1.101—网络ip GATEWAY=192.168.1.2—网关 DNS1=192.168.1.2—网关 ONBOOT=yes 阅读全文
posted @ 2018-04-08 23:28 谦如尘埃风过隙 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 一、大数据平台 大数据在工作中的应用有三种: 与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴; 与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。 数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。 阅读全文
posted @ 2018-04-08 23:00 谦如尘埃风过隙 阅读(1294) 评论(0) 推荐(1) 编辑