01 2021 档案

摘要:Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。 提供可视化向导式的作业配置管理界面; 提供定时调度任务,周期性执行Loader作业; 在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。 基于开源Sqoop研发, 阅读全文
posted @ 2021-01-29 23:38 夏日的向日葵 阅读(501) 评论(0) 推荐(0)
摘要:Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL 、 PostgreSQL 阅读全文
posted @ 2021-01-29 22:27 夏日的向日葵 阅读(1407) 评论(0) 推荐(0)
摘要:一、数据库设计架构 数据库设计架构有三种模式设计: 1、Shared - Disk 各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。 典型的代表Oracle RAC,数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好。其类似于SMP(对称多处理)模式,但是当存储器接口达到饱和 阅读全文
posted @ 2021-01-15 12:57 夏日的向日葵 阅读(7334) 评论(0) 推荐(0)
摘要:Spark简介 Spark是基于内存的分布式批处理系统,它把任务拆分,然后分配到多个的CPU上进行处理,处理数据时产生的中间产物(计算结果)存放在内存中,减少了对磁盘的I/O操作,大大的提升了数据的处理速度,在数据处理和数据挖掘方面比较占优势。 Spark应用场景 数据处理(Data Process 阅读全文
posted @ 2021-01-14 23:04 夏日的向日葵 阅读(1672) 评论(0) 推荐(0)
摘要:1.大数据的概念 维基百科的定义: 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 2.大数据主流技术 数据采集: 使用Flume,可进行流式日志数据的收集。 使用Sqoop可以交互关系型数据库,进行导入导出数据。 使用爬虫技术,可在网上爬取海量网页数据。 数据存储与 阅读全文
posted @ 2021-01-08 22:55 夏日的向日葵 阅读(1666) 评论(0) 推荐(0)