使用hive重定向导出的数据文件中包含WARN日志记录问题
摘要:感谢分享:http://blog.sina.com.cn/s/blog_7e04e0d00102w140.html 采集程序是使用hive -f xx.hql> xx.out,在使用sqoop将数据导入关系型数据库。 最近赶上大数据平台升级,忽然之间跑的好好的任务忽然报错说类型转换错误。 结果经查询
阅读全文
posted @
2020-06-23 14:16
大羽治不了水
阅读(935)
推荐(0)
简单介绍一下hive的metastore
摘要:执行命令 ./hive --service metastore & 在这里简单介绍一下hive的metastore 1. 概述通过hive metastore能访问hive的元数据,hive的元数据使用Data Nucleus持久化,因此mysql等数据库可以和hive结合,存储元数据。 2. me
阅读全文
posted @
2020-06-16 13:39
大羽治不了水
阅读(2103)
推荐(0)
Hive安装,以及一些问题处理
摘要:1.Hive安装部署 1.Hive安装及配置 (1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [root@hadoop102 so
阅读全文
posted @
2020-06-16 12:05
大羽治不了水
阅读(511)
推荐(0)
win10 Centos7设置NAT网络
摘要:1.打开VMWare->编辑->虚拟网络编辑器 2.ifconfig命令查看网络设置文件 此处是ifcfg-ens32文件,则需要修改此文件 3.修改文件ifconfig-ens32 vi ifconfig-ens32 4.设置window的VMnet8网卡 ping 192.168.33.62
阅读全文
posted @
2020-06-11 18:14
大羽治不了水
阅读(281)
推荐(0)
idea2020 版本Springboot项目无法启动
摘要:idea中SpringBoot启动出现程序包org.springframework.boot不存在 Error:(4, 38) java: 程序包org.springframework.stereotype不存在Error:(5, 47) java: 程序包org.springframework.w
阅读全文
posted @
2020-06-09 09:56
大羽治不了水
阅读(3969)
推荐(0)
即席查询--Impala
摘要:第1章 Impala的基本概念 1.1 什么是Impala Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。 1.2 Impa
阅读全文
posted @
2020-06-04 09:21
大羽治不了水
阅读(1182)
推荐(0)
集群文件同步脚本工具rsync、xsync和xcall
摘要:一、 rsync 远程同步工具rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。(1)基本语法 rsync -rvl $pdir/$fname
阅读全文
posted @
2020-06-03 14:53
大羽治不了水
阅读(1135)
推荐(0)
即席查询--Druid
摘要:1.1 Druid简介 1.1.1 Druid概念 Druid是一个快速的列式分布式的支持实时分析的数据存储系统。他在处理PB级数据,毫秒级查询,数据实时方面,比传统的OLAP系统有了显著的性能改进。 Druid的官方网站http://druid.io 主意:阿里巴巴也曾创建过一个开源项目叫做Dru
阅读全文
posted @
2020-06-03 14:28
大羽治不了水
阅读(826)
推荐(0)
即席查询--Presto
摘要:1.1 Presto简介 1.1.1 Presto概念 Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。 注意:虽然Presto可以解析SQL,但是他不是一个标准的数据库。不是MySQL,Oracle的替代品,也不能用来处理在线事务OLTP。 1.
阅读全文
posted @
2020-06-03 14:08
大羽治不了水
阅读(1505)
推荐(0)
ES基本操作CRUD
摘要:使用 IK 分词器 1、ik_smart 最小划分2、ik_max_word 最细粒度划分GET _analyze{ "analyzer": "ik_smart", "text": "是一个伟大的组织"}GET _analyze{ "analyzer": "ik_max_word", "text":
阅读全文
posted @
2020-06-02 17:11
大羽治不了水
阅读(147)
推荐(0)
ES核心慨念
摘要:一. 和lucene的关系 lucene是最先进,功能最强大的搜索库.但是使用复杂(要深入理解其中原理. elasticsearch,基于lucene,隐藏复杂性,提供简单易用的restful api接口、java api,python等接口(还有其他语言的api接口) 二.elasticsearc
阅读全文
posted @
2020-06-02 15:03
大羽治不了水
阅读(81)
推荐(0)
ES安装+head插件+kibana
摘要:1. 去官网下载最新软件 选择zip包,https://www.elastic.co/downloads/elasticsearch 2. 下载nodejs 必须 > 6.0已上 3. 安装grunt Grunt和所有grunt插件都是基于nodejs来运行的,因此,必须安装node.js。 (一)
阅读全文
posted @
2020-06-02 15:02
大羽治不了水
阅读(320)
推荐(0)