大数据 - 随笔分类 - 七星6609

Apache DolphinScheduler集成datax

摘要：DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。具体介绍这里不再赘述，官网和其他博客都很多：https://www.jianshu.com/p/f5f0d 阅读全文

posted @ 2021-01-24 22:54 七星6609 阅读(10280) 评论(0) 推荐(0)

centos7搭建dolphinscheduler集群

摘要：一、简述 Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。有如下特性：高可靠性去中心化的多Master和多Worker, 自身支持HA功能, 采用任务队列来阅读全文

posted @ 2021-01-24 21:41 七星6609 阅读(2374) 评论(0) 推荐(0)

Spark3.0.1各种集群模式搭建及spark on yarn日志配置

摘要：对于spark前来围观的小伙伴应该都有所了解，也是现在比较流行的计算框架，基本上是有点规模的公司标配，所以如果有时间也可以补一下短板。简单来说Spark作为准实时大数据计算引擎，Spark的运行需要依赖资源调度和任务管理，Spark自带了standalone模式资源调度和任务管理工具，运行在其他资阅读全文

posted @ 2020-11-21 23:29 七星6609 阅读(4961) 评论(0) 推荐(0)

hive常用命令

摘要：在安装完hive之后（hadoop-2.10.0安装hive-2.3.6），已经迫不及待的想尝试一下hive的一些用法，我们最常用的就是直接输入hive回车，使用的是cli（Command Line Interface ）模式，下面介绍一下hive的使用以及一些常用的命令 1.首先查看hive帮助，阅读全文

posted @ 2020-02-09 22:47 七星6609 阅读(1290) 评论(0) 推荐(0)

hadoop-2.10.0安装hive-2.3.6

摘要：公司建立数仓，hive是必不可少的，hive是建立在hadoop基础上的数据库，前面已经搭建起了hadoop高可用，要学习hive，先从搭建开始，下面梳理一下hive搭建过程 1.下载hive安装包，下载地址：https://hive.apache.org/downloads.html 找到自己h 阅读全文

posted @ 2020-02-07 23:40 七星6609 阅读(2582) 评论(0) 推荐(0)

centos7搭建hadoop2.10高可用(HA)

摘要：本篇介绍在centos7中搭建hadoop2.10高可用集群，首先准备6台机器：2台nn(namenode);4台dn(datanode)；3台jn(journalnode)；3台zk(zookeeper) IP hostname 进程 192.168.30.141 s141 nn1（namenod 阅读全文

posted @ 2020-02-02 23:31 七星6609 阅读(2173) 评论(0) 推荐(3)

hadoop-3.1.2启动httpfs

摘要：最近有一个需求，要求使用httpfs读取数据，一开始看到httpfs这个词，第一感觉是不是多了个f，是不是https，后来百度一下，其实不然。 httpfs其实是使用http协议访问hdfs文件系统： HttpFS是一台提供REST HTTP网关的服务器，该网关支持所有HDFS文件系统操作（读取和写阅读全文

posted @ 2019-10-25 14:23 七星6609 阅读(3163) 评论(0) 推荐(0)

使用TableSnapshotInputFormat读取Hbase快照数据

摘要：根据快照名称读取hbase快照中的数据，在网上查了好多资料，很少有资料能够给出清晰的方案，根据自己的摸索终于实现，现将代码贴出，希望能给大家有所帮助：如果读取快照数据时，数据列簇使用的是lzo压缩的话，可能会遇到lzo解压缩问题，可以参照：hbase读取快照数据-lzo压缩遇到的问题阅读全文

posted @ 2019-09-04 20:53 七星6609 阅读(1763) 评论(0) 推荐(0)

七星6609

随笔分类 - 大数据

公告