摘要:
查询语法 翻译版 原文:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 选择语法 [WITH CommonTableExpression (, CommonTableExpression)*] (Note: 阅读全文
posted @ 2020-08-04 17:24
shaoyayu
阅读(1073)
评论(0)
推荐(0)
摘要:
Hive DDL 中文文档 总览 HiveQL DDL语句在此处记录,包括: 创建数据库/架构,表,视图,函数,索引 删除数据库/架构,表,视图,索引 截断表 ALTER DATABASE / SCHEMA,表格,视图 MSCK维修表(或更改表恢复分区) 显示数据库/架构,表,TBL属性,视图,分区 阅读全文
posted @ 2020-08-04 17:23
shaoyayu
阅读(534)
评论(0)
推荐(0)
摘要:
HIVE DML 中文文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 将文件加载到表中 Hive在将数据加载到表中时不会进行任何转换。加载操作当前是纯复制/移动操作,可将数据文件移动到与Hive表相对应的位 阅读全文
posted @ 2020-08-04 17:21
shaoyayu
阅读(282)
评论(0)
推荐(0)
摘要:
Hive 其他 Hive Lateral View hive Lateral View Lateral View用于和UDTF函数(explode、 split) 结合来使用。 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。 主要解决在select使用UDTF做查询过程中, 阅读全文
posted @ 2020-08-04 17:05
shaoyayu
阅读(180)
评论(0)
推荐(0)
摘要:
Hive 运行方式、GUI接口和权限管理 Hive 运行方式 1、 命令行方式CLI :控制台方式 不光是可以执行HSQL命令,还可以执行DFS命令, 也可以执行本地系统命令,如 hive > ! ls / 2、脚本运行方式 (生产环境中应用很多) []$ hive -e "select * f 阅读全文
posted @ 2020-08-04 17:03
shaoyayu
阅读(618)
评论(0)
推荐(0)
摘要:
Hive 分桶 1、hive分桶 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。 对于hive中每一 个表分区都可以进一 步进行分桶。 由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。 适用场景: 数据抽样(sampling ) 2、开启支持分桶 开启分桶 set hive.en 阅读全文
posted @ 2020-08-04 17:01
shaoyayu
阅读(293)
评论(0)
推荐(0)
摘要:
Hive 动态分区 Hive 参数 hive 参数、变量 hive当中的参数、变量,都是以命名空间开头 命名空间 读写权限 含义 hiveconf 可读写 hive-site.xml当中的各配置变量 例:hive --hiveconf hive.cli.print.header=true syste 阅读全文
posted @ 2020-08-04 17:00
shaoyayu
阅读(1860)
评论(1)
推荐(1)
摘要:
Hive 函数 开发文档 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回F 阅读全文
posted @ 2020-08-04 16:54
shaoyayu
阅读(195)
评论(0)
推荐(0)
摘要:
Hive DML 删除表中的数据: truncate table table_name 删除表的数据 从查询将数据插入Hive表 可以使用insert子句将查询结果插入表中。 Hive extension (multiple inserts): FROM from_statement INSERT 阅读全文
posted @ 2020-08-04 16:51
shaoyayu
阅读(115)
评论(0)
推荐(0)
摘要:
HIVE分区 简单分区 hive> CREATE TABLE psn_2( > id int, > name string, > likes array<string>, > address map<string,string> > ) > PARTITIONED BY (age int) > RO 阅读全文
posted @ 2020-08-04 16:46
shaoyayu
阅读(385)
评论(0)
推荐(0)
摘要:
HIVE的入门 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 创建/删除/更改/使用数据库 创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_nam 阅读全文
posted @ 2020-08-04 16:44
shaoyayu
阅读(253)
评论(0)
推荐(0)
摘要:
Hive的搭建环境 自己必须搭建好hdfs集群和mysql环境 MYSQL的安装配置 yum安装Mysql 如果你的yum数据源里面没有找到mysql-server 请下载安装MYSQL的数据源 $ wget http://repo.mysql.com/mysql-community-release 阅读全文
posted @ 2020-08-04 16:43
shaoyayu
阅读(410)
评论(0)
推荐(0)
摘要:
Hive基础 看了好多文章,还是觉得这个up写的我个人好理解点 转载地址:https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介 什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 阅读全文
posted @ 2020-08-04 16:32
shaoyayu
阅读(278)
评论(0)
推荐(0)
摘要:
TFIDF 案列 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次 阅读全文
posted @ 2020-08-04 16:28
shaoyayu
阅读(176)
评论(0)
推荐(0)
摘要:
PageRank案列 什么是pagerank PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索弓中的其他网页而言的重要程度。 是Google创始人拉里佩奇和谢尔盖布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。 计算环境 Hadoop-2.5.2 阅读全文
posted @ 2020-08-04 16:26
shaoyayu
阅读(262)
评论(0)
推荐(0)
摘要:
MapReduce好友推荐案例 好友序列 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hell 阅读全文
posted @ 2020-08-04 16:23
shaoyayu
阅读(265)
评论(0)
推荐(0)
摘要:
MapReduce天气查询实列 天气统计案例 2000-01-01 16 29 2000-01-02 14 40 2000-01-03 23 35 2000-01-04 18 25 2000-01-05 14 33 2000-01-06 14 -4 ...... 2000-01-18 23 26 2 阅读全文
posted @ 2020-08-04 16:21
shaoyayu
阅读(255)
评论(0)
推荐(0)
摘要:
MapReduce源码分析 Job waitForCompletion方法 public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException, ClassNotFoundExcept 阅读全文
posted @ 2020-08-04 16:18
shaoyayu
阅读(248)
评论(0)
推荐(0)
摘要:
MapReduce api实战 配置pmx <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS 阅读全文
posted @ 2020-08-04 16:16
shaoyayu
阅读(309)
评论(0)
推荐(0)
摘要:
配置YARN高可用 官方文档:https://hadoop.apache.org/docs/r2.7.5/ 1、Configure parameters as follows:etc/hadoop/mapred-site.xml: <configuration> <property> <name>m 阅读全文
posted @ 2020-08-04 16:14
shaoyayu
阅读(1247)
评论(0)
推荐(0)
摘要:
Yarn 分布式资源调度 MapReduce的不足 参考文章:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ yarn体系结构 yarn(yet Another Resources Negotiation,另一种 阅读全文
posted @ 2020-08-04 16:11
shaoyayu
阅读(505)
评论(0)
推荐(0)
摘要:
MapReduce 案例与概述 官方简介 Overview Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terab 阅读全文
posted @ 2020-08-04 16:07
shaoyayu
阅读(228)
评论(0)
推荐(0)
摘要:
伪分布式集群搭建 1、伪分布式搭建 1.1、先配置JDK环境 上传后解压JDK到/usr/java/ export JAVA_HOME=/usr/java/jdk1.8.0_221 export JRE_HOME=/usr/java/jdk1.8.0_221/jre export CLASSPATH 阅读全文
posted @ 2020-08-04 16:01
shaoyayu
阅读(227)
评论(0)
推荐(0)
摘要:
Hadoop的HA高可用实验 1、免秘钥登录 集群之间做免秘钥登录 2、简介 目的 本指南概述了HDFS高可用性(HA)功能以及如何使用Quorum Journal Manager(QJM)功能配置和管理HA HDFS群集。 本文档假定读者对HDFS群集中的常规组件和节点类型有一般的了解。有关详细信 阅读全文
posted @ 2020-08-04 15:56
shaoyayu
阅读(604)
评论(0)
推荐(0)
摘要:
Hadoop集群的HA 1、简介 HA模式解决单点故障问题, 2、规划 NN-1 NN-2 DN ZK ZKFC JNN Node1 * * * Node2 * * * * * Node3 * * * Node4 * * ZK: zookeeper ZKFC: failover controller 阅读全文
posted @ 2020-08-04 15:55
shaoyayu
阅读(185)
评论(0)
推荐(0)
摘要:
Zookeeper分布式协调服务 1、简介 zookeeper是一个分布式协调服务的框架,主要用来解决分布式集群中应用系统的一致性问题,例如如何避免同时操作导致数据脏读的问题等,Zookeeper本质上是一个分布式的小型文件存储系统,提供基于类似文件系统树方式的数据存储,并且可以对书中的节点进行 阅读全文
posted @ 2020-08-04 15:53
shaoyayu
阅读(568)
评论(0)
推荐(0)
摘要:
Hadoop版本 1、Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题? 2、HDFS存在的问题 NameNode单点故障,难于应用于在线场景 HA 【high availability 高可用】 NameNode压力过大,且内存受限,影响扩展性 F【Federatio 阅读全文
posted @ 2020-08-04 15:51
shaoyayu
阅读(563)
评论(0)
推荐(0)
摘要:
全分布式集群搭建 1、系统配置 1.1、时间 1.2、JDK 1.3、免秘钥登录 【我做的是节点之间免密登录,可以给主节点做单向的免秘钥登录】 【服务器时间必须统一】 【关闭防火墙,关闭安全机制】 这里我就不做过多的笔记,后面还有很多的配置等着,10几分钟左右的事情。 2、修改配置文件: 这是基于伪 阅读全文
posted @ 2020-08-04 15:48
shaoyayu
阅读(265)
评论(0)
推荐(0)
摘要:
伪分布式集群搭建 1、伪分布式搭建 1.1、先配置JDK环境 上传后解压JDK到/usr/java/ export JAVA_HOME=/usr/java/jdk1.8.0_221 export JRE_HOME=/usr/java/jdk1.8.0_221/jre export CLASSPATH 阅读全文
posted @ 2020-08-04 15:45
shaoyayu
阅读(305)
评论(0)
推荐(0)
摘要:
HDFS入门 简介: 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。 传统的网络文件系统(NFS)虽然也称为分布 阅读全文
posted @ 2020-08-04 15:35
shaoyayu
阅读(204)
评论(0)
推荐(0)
摘要:
Hadoop-HDFS 1、介绍 HDFS是Hadoop应用程序使用的主要分布式存储。HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。《 HDFS体系结构指南》详细介绍了HDFS。本用户指南主要处理用户和管理员与HDFS群集的交互。HDFS体系结构图描述了 阅读全文
posted @ 2020-08-04 15:29
shaoyayu
阅读(135)
评论(0)
推荐(0)
摘要:
Hadoop介绍 什么是Apache Hadoop? Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地 阅读全文
posted @ 2020-08-04 15:27
shaoyayu
阅读(258)
评论(0)
推荐(0)
摘要:
Nginx入门 简介: Nginx做为一个强大的Web服务器软件,具有高性能、高并发性和低内存占用的特点。此外,其也能够提供强大的反向代理功能。俄罗斯大约有超过20%的虚拟主机采用Nginx作为反向代理服务器,在国内也有腾讯、新浪、网易等多家网站在使用Nginx作为反向代理服务器。据Netcraft 阅读全文
posted @ 2020-08-04 15:23
shaoyayu
阅读(433)
评论(0)
推荐(0)
摘要:
Keepalived 简介 Keepalived的作用是检测服务器的状态,如果有一台web服务器宕机,或工作出现故障,Keepalived将检测到,并将有故障的服务器从系统中剔除,同时使用其他服务器代替该服务器的工作,当服务器工作正常后Keepalived自动将服务器加入到服务器群中,这些工作全部自 阅读全文
posted @ 2020-08-04 15:11
shaoyayu
阅读(208)
评论(0)
推荐(0)

浙公网安备 33010602011771号