摘要:DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 具体介绍这里不再赘述,官网和其他博客都很多:https://www.jianshu.com/p/f5f0d 阅读全文
posted @ 2021-01-24 22:54 七星6609 阅读(21) 评论(0) 推荐(0) 编辑
摘要:一、简述 Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。有如下特性: 高可靠性 去中心化的多Master和多Worker, 自身支持HA功能, 采用任务队列来 阅读全文
posted @ 2021-01-24 21:41 七星6609 阅读(78) 评论(0) 推荐(0) 编辑
摘要:使用VMware虚拟机由于电脑关机时,虚拟机没关闭,导致虚拟机被挂起,再打开电脑继续运行虚拟机时,时间就变为上次关闭电脑的时间,导致虚拟机时间不对,下面使用ntp来处理时间同步问题 1.安装ntp yum -y install ntp 2.设置开机自启并启动ntp服务 systemctl enabl 阅读全文
posted @ 2021-01-18 22:45 七星6609 阅读(30) 评论(0) 推荐(0) 编辑
摘要:1.错误描述 我在Windows 10 系统下打包dolphinscheduler,上传到centos7解压之后,执行脚本报如下错误: -bash: ./dolphinscheduler-daemon.sh: /bin/sh^M: 坏的解释器: 没有那个文件或目录 ^M是什么东东,为什么会有^M 通 阅读全文
posted @ 2021-01-16 21:54 七星6609 阅读(36) 评论(0) 推荐(0) 编辑
摘要:通过配置VIP,在进行主备切换时,出现的报错信息: 1.当主备节点当前binlog文件名称相同时,原主节点的position小于主备切换后的position,出现如下报错: 2020-07-02 15:08:09,332 INFO [destination = 1-236 , address = / 阅读全文
posted @ 2020-11-22 20:24 七星6609 阅读(330) 评论(0) 推荐(0) 编辑
摘要:对于spark前来围观的小伙伴应该都有所了解,也是现在比较流行的计算框架,基本上是有点规模的公司标配,所以如果有时间也可以补一下短板。 简单来说Spark作为准实时大数据计算引擎,Spark的运行需要依赖资源调度和任务管理,Spark自带了standalone模式资源调度和任务管理工具,运行在其他资 阅读全文
posted @ 2020-11-21 23:29 七星6609 阅读(536) 评论(0) 推荐(0) 编辑
摘要:无论是传统行业,还是互联网行业,数据可用性都是至关重要的,虽然现在已经步入大数据时代,nosql比较流行,但是作为数据持久化及事务性的关系型数据库依然是项目首选,比如mysql。 现在几乎所有的公司项目,不说可用性必须达到5个9,至少也要要求,数据库出现问题,不能丢失数据,能够快速响应异常处理,下面 阅读全文
posted @ 2020-07-05 22:49 七星6609 阅读(919) 评论(0) 推荐(4) 编辑
摘要:当我们在线上运行项目时,依赖很多jar包,有时候某个类的全限定名,在多个包中出现,而某个包中的类的方法没有,而且在类加载时,刚好加载了这个类,可能会报找不到方法,或者找不到类的异常,这种情况就可能是类冲突: 如: java.lang.NoSuchMethodError: com.google.com 阅读全文
posted @ 2020-03-20 23:35 七星6609 阅读(371) 评论(0) 推荐(0) 编辑
摘要:平时在处理一个或几个机器运行环境时,一个机器一个机器处理也能接受,但是如果是一批机器,几十或几百台,要是一台一台去安装环境,光是输入同一的命令,估计你自己都想吐,所有聪明的人会想一些偷懒的办法,确实可以找到一些省时省力的方法,比如写一个批量处理shell脚本,这几天在处理一批(八九十台)机器环境,找 阅读全文
posted @ 2020-03-01 23:07 七星6609 阅读(1276) 评论(0) 推荐(1) 编辑
摘要:在进行数据交换时,如果主键不是整型,需要对字符串,或联合主键拼接为字符串,进行hash,再进行取模分片,使用的是String自带的hashCode()方法,本来是件很方便的事,但是有些字符串取hashCode竟然是负数,使得分片为负数,找不到对应的分片,我们先看一下String 生成hashCode 阅读全文
posted @ 2020-02-23 21:23 七星6609 阅读(1778) 评论(0) 推荐(0) 编辑
摘要:在安装完hive之后(hadoop-2.10.0安装hive-2.3.6),已经迫不及待的想尝试一下hive的一些用法,我们最常用的就是直接输入hive回车,使用的是cli(Command Line Interface )模式,下面介绍一下hive的使用以及一些常用的命令 1.首先查看hive帮助, 阅读全文
posted @ 2020-02-09 22:47 七星6609 阅读(308) 评论(0) 推荐(0) 编辑
摘要:公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址:https://hive.apache.org/downloads.html 找到自己h 阅读全文
posted @ 2020-02-07 23:40 七星6609 阅读(1280) 评论(0) 推荐(0) 编辑
摘要:mysql是我们最常用的开源的关系型数据库,mysql不同版本有时候安装的方式也不尽相同,下面以mysql5.7.28版本为例梳理一下安装细节: 1.下载mysql-5.7.28,URL:https://downloads.mysql.com/archives/community/ 我这里下载的是6 阅读全文
posted @ 2020-02-06 23:20 七星6609 阅读(5823) 评论(0) 推荐(0) 编辑
摘要:mysql是我们最常用的开源的关系型数据库,mysql不同版本有时候安装的方式也不尽相同,mysql-5.5和mysql-5.6安装大致相同,下面以mysql5.5.62版本为例梳理一下安装细节: 1.下载mysql5.5.62,URL:https://downloads.mysql.com/arc 阅读全文
posted @ 2020-02-05 23:20 七星6609 阅读(1493) 评论(0) 推荐(0) 编辑
摘要:本篇介绍在centos7中搭建hadoop2.10高可用集群,首先准备6台机器:2台nn(namenode);4台dn(datanode);3台jn(journalnode);3台zk(zookeeper) IP hostname 进程 192.168.30.141 s141 nn1(namenod 阅读全文
posted @ 2020-02-02 23:31 七星6609 阅读(911) 评论(0) 推荐(2) 编辑
摘要:本篇介绍在centos7中大家hadoop2.10完全分布式,首先准备4台机器:1台nn(namenode);3台dn(datanode) IP hostname 进程 192.168.30.141 s141 nn(namenode) 192.168.30.142 s142 dn(datanode) 阅读全文
posted @ 2020-01-29 22:56 七星6609 阅读(1210) 评论(0) 推荐(0) 编辑
摘要:作为开发人员,我们在选择一个框架或者工具时,我们都需要考虑些什么,我们不是头脑发热,一拍脑袋就它了,我们首先要认清这个框架或工具的作用是什么,能给我们带来什么样的好处,同时也要考虑带来什么样的负面结果,我们在使用时才能更好的扬其长避其短,kafka大家可能都不陌生,到底我们为什么选择kafka呢? 阅读全文
posted @ 2020-01-22 11:41 七星6609 阅读(1235) 评论(3) 推荐(4) 编辑
摘要:1.准备一台Vmware虚拟机,添加hdfs用户及用户组,配置网络见 https://www.cnblogs.com/qixing/p/11396835.html 在root用户下 添加hdfs用户,并设置密码: 将hdfs用户添加到hdfs用户组中 前面一个hdfs是组名,后面一个hdfs是用户名 阅读全文
posted @ 2019-12-29 23:00 七星6609 阅读(1566) 评论(0) 推荐(0) 编辑
摘要:在Java开发是我们大多都使用集成开发环境,像idea和eclipse用的都比较多,在使用idea maven构建项目时,在修改pom.xml文件时,我们的项目jdk版本都会回退,还得每次去设置中修改jdk版本,如下: settings设置jdk版本: project structure设置jdk版 阅读全文
posted @ 2019-11-30 15:31 七星6609 阅读(1000) 评论(0) 推荐(0) 编辑
摘要:在使用git提交项目时,有时候会误提交一下文件,比如:*.iml,*.project,*.settings,.idea/*等文件,有时候这些不需要提交的文件可以加入到.gitignore,在提交的时候可以忽略这些文件,但是有时候我们忘记,就会出现误提交一些文件,这时就需要我们删除误提交的文件,下面是 阅读全文
posted @ 2019-11-22 14:27 七星6609 阅读(2329) 评论(0) 推荐(0) 编辑
摘要:DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 具体介绍这里不再赘述,官网和其他博客都很多:https://www.jianshu.com/p/f5f0d 阅读全文
posted @ 2021-01-24 22:54 七星6609 阅读(21) 评论(0) 推荐(0) 编辑
摘要:一、简述 Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。有如下特性: 高可靠性 去中心化的多Master和多Worker, 自身支持HA功能, 采用任务队列来 阅读全文
posted @ 2021-01-24 21:41 七星6609 阅读(78) 评论(0) 推荐(0) 编辑
摘要:使用VMware虚拟机由于电脑关机时,虚拟机没关闭,导致虚拟机被挂起,再打开电脑继续运行虚拟机时,时间就变为上次关闭电脑的时间,导致虚拟机时间不对,下面使用ntp来处理时间同步问题 1.安装ntp yum -y install ntp 2.设置开机自启并启动ntp服务 systemctl enabl 阅读全文
posted @ 2021-01-18 22:45 七星6609 阅读(30) 评论(0) 推荐(0) 编辑
摘要:1.错误描述 我在Windows 10 系统下打包dolphinscheduler,上传到centos7解压之后,执行脚本报如下错误: -bash: ./dolphinscheduler-daemon.sh: /bin/sh^M: 坏的解释器: 没有那个文件或目录 ^M是什么东东,为什么会有^M 通 阅读全文
posted @ 2021-01-16 21:54 七星6609 阅读(36) 评论(0) 推荐(0) 编辑
摘要:通过配置VIP,在进行主备切换时,出现的报错信息: 1.当主备节点当前binlog文件名称相同时,原主节点的position小于主备切换后的position,出现如下报错: 2020-07-02 15:08:09,332 INFO [destination = 1-236 , address = / 阅读全文
posted @ 2020-11-22 20:24 七星6609 阅读(330) 评论(0) 推荐(0) 编辑
摘要:对于spark前来围观的小伙伴应该都有所了解,也是现在比较流行的计算框架,基本上是有点规模的公司标配,所以如果有时间也可以补一下短板。 简单来说Spark作为准实时大数据计算引擎,Spark的运行需要依赖资源调度和任务管理,Spark自带了standalone模式资源调度和任务管理工具,运行在其他资 阅读全文
posted @ 2020-11-21 23:29 七星6609 阅读(536) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2020-11-17 15:52 七星6609 阅读(36) 评论(0) 推荐(0) 编辑
摘要:无论是传统行业,还是互联网行业,数据可用性都是至关重要的,虽然现在已经步入大数据时代,nosql比较流行,但是作为数据持久化及事务性的关系型数据库依然是项目首选,比如mysql。 现在几乎所有的公司项目,不说可用性必须达到5个9,至少也要要求,数据库出现问题,不能丢失数据,能够快速响应异常处理,下面 阅读全文
posted @ 2020-07-05 22:49 七星6609 阅读(919) 评论(0) 推荐(4) 编辑
摘要:当我们在线上运行项目时,依赖很多jar包,有时候某个类的全限定名,在多个包中出现,而某个包中的类的方法没有,而且在类加载时,刚好加载了这个类,可能会报找不到方法,或者找不到类的异常,这种情况就可能是类冲突: 如: java.lang.NoSuchMethodError: com.google.com 阅读全文
posted @ 2020-03-20 23:35 七星6609 阅读(371) 评论(0) 推荐(0) 编辑
摘要:平时在处理一个或几个机器运行环境时,一个机器一个机器处理也能接受,但是如果是一批机器,几十或几百台,要是一台一台去安装环境,光是输入同一的命令,估计你自己都想吐,所有聪明的人会想一些偷懒的办法,确实可以找到一些省时省力的方法,比如写一个批量处理shell脚本,这几天在处理一批(八九十台)机器环境,找 阅读全文
posted @ 2020-03-01 23:07 七星6609 阅读(1276) 评论(0) 推荐(1) 编辑
摘要:在进行数据交换时,如果主键不是整型,需要对字符串,或联合主键拼接为字符串,进行hash,再进行取模分片,使用的是String自带的hashCode()方法,本来是件很方便的事,但是有些字符串取hashCode竟然是负数,使得分片为负数,找不到对应的分片,我们先看一下String 生成hashCode 阅读全文
posted @ 2020-02-23 21:23 七星6609 阅读(1778) 评论(0) 推荐(0) 编辑
摘要:在安装完hive之后(hadoop-2.10.0安装hive-2.3.6),已经迫不及待的想尝试一下hive的一些用法,我们最常用的就是直接输入hive回车,使用的是cli(Command Line Interface )模式,下面介绍一下hive的使用以及一些常用的命令 1.首先查看hive帮助, 阅读全文
posted @ 2020-02-09 22:47 七星6609 阅读(308) 评论(0) 推荐(0) 编辑
摘要:公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址:https://hive.apache.org/downloads.html 找到自己h 阅读全文
posted @ 2020-02-07 23:40 七星6609 阅读(1280) 评论(0) 推荐(0) 编辑
摘要:mysql是我们最常用的开源的关系型数据库,mysql不同版本有时候安装的方式也不尽相同,下面以mysql5.7.28版本为例梳理一下安装细节: 1.下载mysql-5.7.28,URL:https://downloads.mysql.com/archives/community/ 我这里下载的是6 阅读全文
posted @ 2020-02-06 23:20 七星6609 阅读(5823) 评论(0) 推荐(0) 编辑
摘要:mysql是我们最常用的开源的关系型数据库,mysql不同版本有时候安装的方式也不尽相同,mysql-5.5和mysql-5.6安装大致相同,下面以mysql5.5.62版本为例梳理一下安装细节: 1.下载mysql5.5.62,URL:https://downloads.mysql.com/arc 阅读全文
posted @ 2020-02-05 23:20 七星6609 阅读(1493) 评论(0) 推荐(0) 编辑