hadoop - 随笔分类 - 茅坤宝骏氹

HiveSQL常用优化方法全面总结

摘要：转载自 HiveSQL常用优化方法全面总结 Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hi 阅读全文

posted @ 2020-11-08 10:42 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Zookeeper超详细的面试题

摘要：转载自 Zookeeper超详细的面试题 1.ZooKeeper是什么？ ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效阅读全文

posted @ 2020-05-12 22:29 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态Zookeeper安装

摘要：一、安装条件前置实验zookeeper安装在【Hadoop入门（二）集群安装】机器上，已完成安装jdk,hadoop和ssh配置环境等。 zookeeper所依赖的虚拟机和操作系统配置环境：ubuntu14 + apache-zookeeper-3.5.6-bin.tar + jdk1.8+ss 阅读全文

posted @ 2020-01-28 12:45 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态hive（六）Hive QL表

摘要：一、创建表语法： create [temporary] [external] table [if not exists] [db_name.] table_name [(col_name data_type [comment col_comment], ...)] [comment table_c 阅读全文

posted @ 2019-11-16 20:12 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态hive（五）Hive QL数据库

摘要：（1）查看数据库 show databases; （2）使用数据库 use db; （3）查看当前数据库 #与mysql的select database();不一样 select current_database(); （4）创建数据库 create database [if not exists] 阅读全文

posted @ 2019-11-16 19:00 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态hive（四）数据类型

摘要：一、原始类型类型描述字面量示例BOOLEANtrue/falseTRUETINYINT1字节的有符号整数 -128~12710MALLINT2个字节的有符号整数，-32768~3276720000INT4个字节的带符号整数1000000BIGINT8字节带符号整数13LFLOAT4字节单精度浮点数阅读全文

posted @ 2019-11-16 17:41 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态Flume（二）安装配置

摘要：一、flume下载地址列中的链接应显示可用镜像的列表，并根据您的推断位置进行默认选择。如果看不到该页面，请尝试使用其他浏览器。校验和和签名是主分发服务器上原始文件的链接。 Apache Flume二进制文件（tar.gz）apache-flume-1.9.0-bin.tar.gzapache-fl 阅读全文

posted @ 2019-11-16 13:39 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态Flume（一）介绍

摘要：一、概述 Apache Flume是一个分布式，可靠且可用的系统，用于有效地收集，聚合大量日志数据并将其从许多不同的源移动到集中式数据存储中。 Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的，因此Flume可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据阅读全文

posted @ 2019-11-16 12:02 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

摘要：转载自 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient hive初始化（mysql为元数据库）完成后，执行SQL语句报错经过各种查询资料，找到了一种解决办法，大家可以参考。首先阅读全文

posted @ 2019-11-10 20:52 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态hive（三）Hive QL介绍

摘要：一、表创建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name CREATE TABLE 创建一个指定名字的表。Hive 创建内部表时，会将数据移动到数据仓库指向的路径； EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向阅读全文

posted @ 2019-11-10 20:44 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态hive（二）安装

摘要：一、安装模式内嵌模式：元数据保持在内嵌的Derby模式，只允许一个会话连接本地独立模式：在本地安装Mysql，把元数据放到Mysql内远程模式：元数据放置在远程的Mysql数据库官方文档： https://cwiki.apache.org/confluence/display/Hive/Ge 阅读全文

posted @ 2019-11-10 20:33 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop生态hive（一）介绍

摘要：一、Hive是什么起源自facebook由Jeff Hammerbacher领导的团队，构建在Hadoop上的数据仓库框架。设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据。2008年facebook把hive项目贡献给Apache。由facebook开源，最初用于解决海量阅读全文

posted @ 2019-11-10 19:35 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（二十四）Mapreduce的求TopK程序

摘要：一、简介求TopK是算法中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求TopK。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求Top 5。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： 11 2 23 阅读全文

posted @ 2019-10-20 21:50 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（二十三）Mapreduce的求数量最大程序

摘要：一、简介在文件中统计出现最多个数的单词，将其输出到hdfs文件上。二、例子（1）实例描述给出三个文件，每个文件中都若干个单词以空白符分隔，需要统计出现最多的单词样例输入： 1）file1： MapReduce is simple 2）file2： MapReduce is powerful 阅读全文

posted @ 2019-10-20 21:36 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（二十二）Mapreduce的求平均值程序

摘要：一、简介求平均值是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求平均值。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求平均值。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： 11 2 23 17 9 阅读全文

posted @ 2019-10-20 21:06 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（二十一）Mapreduce的求和程序

摘要：一、简介求和是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求和。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求和。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： 11 2 23 17 9 199 2 阅读全文

posted @ 2019-10-20 20:48 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（二十）Mapreduce的最小值程序

摘要：一、简介最小值是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的最小值。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的最小值。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： 11 2 23 17 9 19 阅读全文

posted @ 2019-10-20 20:38 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十九）Mapreduce的最大值程序

摘要：一、简介最大值是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的最大值。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的最大值。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： 11 2 23 17 9 19 阅读全文

posted @ 2019-10-20 20:33 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十八）Mapreduce的倒排索引程序

摘要：一、简介 "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Inde 阅读全文

posted @ 2019-10-20 14:32 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十七）Mapreduce的多表关联程序

摘要：多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息 1 实例描述输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出"工厂名——地址名"表样例输入如下所示： 1）f 阅读全文

posted @ 2019-10-14 00:16 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

茅坤宝骏氹

随笔分类 - hadoop

公告