随笔分类 -  大数据

大数据相关的学习记录~
超详细!CDH版-Hadoop_Hive_Impala单机环境搭建纯离线安装
摘要:CDH-Hadoop_Hive_Impala单机环境搭建纯离线安装 环境介绍及安装包下载地址 Centos6.5 版本选择:cdh5.14.0-src.tar.gz CDH5 – 5.14.0 Hadoop安装包下载地址 http://archive.cloudera.com/cdh5/cdh/5/ 阅读全文
posted @ 2020-12-18 10:03 阿叮339 阅读(2621) 评论(5) 推荐(0)
Impala 查询数据报错处理 NoClassDefFoundError: org/apache/hadoop/fs/adl/AdlFileSystem
摘要:Impala 查询数据报错处理 NoClassDefFoundError: org/apache/hadoop/fs/adl/AdlFileSystem 错误详情: 可以进入impala,但是无法插入数据查询表数据,出现错误:NoClassDefFoundError: org/apache/hado 阅读全文
posted @ 2020-12-17 19:38 阿叮339 阅读(835) 评论(0) 推荐(0)
Kettle连接SQL Server数据库
摘要:Kettle连接SQL Server数据库 1.打开Kettle,进入数据库连接,按照下图标记选择并输入数据库连接信息 连接类型选择: MS SQL Server(Native) 连接方式选择:Native(JDBC) 2.初次测试时,会报错: Error connecting to databas 阅读全文
posted @ 2020-03-11 12:23 阿叮339 阅读(5176) 评论(0) 推荐(0)
Hive UDF函数测试
摘要:Hive UDF函数测试 1.UDF函数确定 根据SVN路径获取UDF函数代码,然后将需要调整的部分作出相应调整(eg:新增2020年工作日信息 修改对应的XML文件),重新使用maven install 命令打包为新的jar包 2.将UDF Jar包通过HUE上传到服务器 上传步骤与平时上传脚本文 阅读全文
posted @ 2019-12-30 14:57 阿叮339 阅读(1259) 评论(0) 推荐(0)
Hive時間函數-年份相加減
摘要:Hive時間函數-年份相加減 目前為止搜了很多资料,都没有找到Hive关于时间 年份,月份的处理信息,所以就自己想办法截取啦 本来是用了概数,一年365天去取几年前的日期,后来测试的发现不够精准,然后给提了mantis bug. emmmmm..... 然后就想办法精准吧,找不到相应函数就自己来凑哈 阅读全文
posted @ 2019-11-14 20:54 阿叮339 阅读(4756) 评论(0) 推荐(1)
Hive concat函数连接后结果为null
摘要:Hive concat函数连接后结果为null concat函数是用来连接字符串的 使用示例: select concat('Hello','World','Java'); 运行结果: 最近我们在做需求的时候使用concat去拼接地址信息,脚本如下:(ta是我存放地址信息的表别名,地址分为三段存储) 阅读全文
posted @ 2019-11-12 12:43 阿叮339 阅读(3867) 评论(0) 推荐(1)
Hive脚本中切勿使用/**/注释
摘要:Hive脚本中切勿使用/**/注释 Hive脚本的注释目前好像只有 -- ,我之前在做初版数据的时候 使用NotePad++ 习惯性的有时候注释会写成 /**/ ,然后就引发了问题 脚本上传到hue,加入调度,调度正常执行 不报错,但是应该有的数据却为空!!! 奇了怪了.... (反复执行了好多遍, 阅读全文
posted @ 2019-10-20 10:11 阿叮339 阅读(3611) 评论(0) 推荐(0)
Sqoop 抽数报错: java.io.FileNotFoundException: File does not exist
摘要:Sqoop 抽数报错: java.io.FileNotFoundException: File does not exist 一、错误详情 2019-10-17 20:04:49,080 INFO [IPC Server handler 20 on 45158] org.apache.hadoop. 阅读全文
posted @ 2019-10-17 20:28 阿叮339 阅读(2875) 评论(0) 推荐(0)
HUE Oozie : error=2, No such file or directory采坑记录
摘要:HUE Oozie : error=2, No such file or directory采坑记录 1.错误详情 一直都是同一种方式在hue上定义workflow,不知为啥 今天定义的就是不行..... 一直报错,不管反复创建文件或者脚本多少遍,也不管重新定义workflow多少遍,报错信息始终如 阅读全文
posted @ 2019-10-17 19:43 阿叮339 阅读(2589) 评论(0) 推荐(0)
HUE备份已定义好的workflow
摘要:HUE备份已定义好的workflow 最近使用HUE定义了一个很复杂的调度,但是调度执行到一半就开始报错.... 这个可真让人头疼呀, 从头开始跑数据吧 太费时间了,而且会容易造成Hive库总数据冗余 在workflow将已经跑完的部分删掉吧 又舍不得,万一下次整个调度又都出错了 又要重新配置 多累 阅读全文
posted @ 2019-10-14 21:40 阿叮339 阅读(814) 评论(3) 推荐(0)
Hive初步认识,理解Hive(一)
摘要:Hive初步认识,理解Hive(一) 用了有一段时间的Hive了,之前一直以为hive是个数据库,类似Mysql、Oracle等数据库一样,其实不然. Hive是实现Hadoop 的MapReduce的一种方式(Hive是一种MapReduce,优化的时候不能以sql的方式进行优化) Hive表分类 阅读全文
posted @ 2019-10-14 21:13 阿叮339 阅读(573) 评论(0) 推荐(1)
Beeline里面执行hive脚本 函数nvl2()与replace()报错
摘要:Beeline里面执行hive脚本函数nvl2()与replace()报错 写脚本的时候是在impala里面执行的,都正常,但是转换为调度的时候是在beeline里面执行的 就会有问题了. 详情如下: replace函数: (去掉字符串里面所有空格) select replace(' hell o 阅读全文
posted @ 2019-10-12 10:50 阿叮339 阅读(3148) 评论(0) 推荐(0)
Hive 报错 Error while compiling statement: FAILED: ParseException line 1:0 character '' not supported here (state=42000,code=40000)
摘要:解决方案: 将beeline -u 需要执行的脚本信息(eg: insert.hql)的编码格式转换为 UTF-8, 记住是UTF-8!!! 再重新上传文件到HUE上,重跑即正常了!!! (这里是因为我之前设置过脚本的编码格式为 Encode in UTF-8-BOM ,所以就会出错,数据不准确,可 阅读全文
posted @ 2019-10-09 14:39 阿叮339 阅读(14328) 评论(0) 推荐(2)
关于大数据T+1执行流程
摘要:关于大数据T+1执行流程 前提: 搭建好大数据环境(hadoop hive hbase sqoop zookeeper oozie hue) 1.将所有数据库的数据汇总到hive (这里有三种数据源 ORACLE MYSQL SEQSERVER) 全量数据抽取示例: ORACLE(注意表名必须大写! 阅读全文
posted @ 2019-09-20 16:34 阿叮339 阅读(2702) 评论(0) 推荐(0)
Hive部分函数解析
摘要:Hive部分函数解析 Hive里的exists ,in ,not exists ,not in 相关函数 表数据准备: 1.选择指定数据库 eg: use bg_database1; 2. 创建表 3.插入表数据 4. 根据原表 demo0919 再创建一张表 demo0919_1,用于比对数据。 阅读全文
posted @ 2019-09-19 20:59 阿叮339 阅读(528) 评论(0) 推荐(0)
kettle抽取数据发送邮件Linux调度
摘要:kettle抽取数据发送邮件Linux调度 #1.进入kettle安装目录 然后执行sqoop.sh文件启动kettlecd /app/pdi-ce-7.1.0.0-12/data-integration./spoon.sh & #2.新建脚本文件 /app/pdi-ce-7.1.0.0-12/ti 阅读全文
posted @ 2019-08-12 18:04 阿叮339 阅读(424) 评论(0) 推荐(0)
Java实现Mysql的 substring_index 函数功能
摘要:Java实现Mysql数据库中 substring_index函数 前言: 由于hive中没有这个 substring_index函数,所以就自定义一个udf函数来调用使用。(不通过hive使用时可以直接使用下方的代码,如果需要被hive使用 记得继承 UDF类) 主要方法: indexOf(str 阅读全文
posted @ 2019-07-03 17:06 阿叮339 阅读(1139) 评论(0) 推荐(0)
Kettle发送邮件
摘要:Kettle发送邮件 上一篇博客中我们提到怎么使用kettle操作数据库提取数据然后生成excel,现在我们来学习一下怎么通过kettle发送邮件~ 1.启动kettle,新建 作业 ,进入通用里面,选择 Start (双击) 2.打开 文件管理 ,选择 添加文件到结果文件中 (双击) 3. 双击右 阅读全文
posted @ 2019-07-01 14:27 阿叮339 阅读(1301) 评论(0) 推荐(0)
Kettle实现从数据库中提取数据到Excel
摘要:因为有个日常提数,工作日每天都要从数据库中提取数据,转换为excel,再以邮件的形式发给用户。 刚好近期同事在研究使用kettle自动提数且完成邮件的发送,觉得很实用又挺有意思的就学了一下这个技能~ 首先我们需要新建 转换 转换: 可以将数据从数据库中提取到excel中 然后我们如果想要定时提取数据 阅读全文
posted @ 2019-06-18 19:20 阿叮339 阅读(1885) 评论(1) 推荐(1)
Kettle在windows上安装
摘要:Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。 因为有个日常提数,工作日每天都要从数据库中提取数据,转换为excel,再以邮件的形式发给用户。 刚好近期同事在研究使用kettle自动提数且完成邮件的发送,觉得很实用又挺有意 阅读全文
posted @ 2019-06-18 18:25 阿叮339 阅读(299) 评论(0) 推荐(0)