大数据 - 随笔分类(第2页) - shaoyayu

HBase 伪分布式搭建

摘要：Quick Start - Standalone HBase 1、简单配置选择一个 Apache 下载镜像，下载 HBase Releases. 点击 stable目录，然后下载后缀为 .tar.gz 的文件; 例如 hbase-0.95-SNAPSHOT.tar.gz. 解压缩，然后进入到那个要阅读全文

posted @ 2020-08-10 06:37 shaoyayu 阅读(390) 评论(0) 推荐(0)

HBase架构

摘要：HBase架构 HBase隶属于hadoop生态系统，它参考了谷歌的BigTable建模，实现的编程语言为 Java, 建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它仅能通过主键(row key)和主键的range来检索数据，主要用来存储非结构化和半结构化的松散数阅读全文

posted @ 2020-08-10 06:35 shaoyayu 阅读(379) 评论(0) 推荐(0)

HBase 入门

摘要：HBase 入门 Hadoop中的HBase ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。简介：非关系型数据库知识面扩展 Cassandra hbase mongo 阅读全文

posted @ 2020-08-10 06:27 shaoyayu 阅读(151) 评论(0) 推荐(0)

Hive 优化

摘要：Hive 优化 Hive优化核心思想:把Hive SQL当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Explain显示执行计划 EXPLAIN [EXTENDED] query Hive抓取策略: Hi 阅读全文

posted @ 2020-08-10 06:24 shaoyayu 阅读(217) 评论(0) 推荐(0)

Hive 中文查询文档

摘要：查询语法翻译版原文：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 选择语法 [WITH CommonTableExpression (, CommonTableExpression)*] (Note: 阅读全文

posted @ 2020-08-04 17:24 shaoyayu 阅读(1072) 评论(0) 推荐(0)

Hive DDL 中文文档

摘要：Hive DDL 中文文档总览 HiveQL DDL语句在此处记录，包括：创建数据库/架构，表，视图，函数，索引删除数据库/架构，表，视图，索引截断表 ALTER DATABASE / SCHEMA，表格，视图 MSCK维修表（或更改表恢复分区）显示数据库/架构，表，TBL属性，视图，分区阅读全文

posted @ 2020-08-04 17:23 shaoyayu 阅读(533) 评论(0) 推荐(0)

HIVE DML 中文文档

摘要：HIVE DML 中文文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 将文件加载到表中 Hive在将数据加载到表中时不会进行任何转换。加载操作当前是纯复制/移动操作，可将数据文件移动到与Hive表相对应的位阅读全文

posted @ 2020-08-04 17:21 shaoyayu 阅读(282) 评论(0) 推荐(0)

Hive 其他

摘要：Hive 其他 Hive Lateral View hive Lateral View Lateral View用于和UDTF函数(explode、 split) 结合来使用。首先通过UDTF函数拆分成多行，再将多行结果组合成一个支持别名的虚拟表。主要解决在select使用UDTF做查询过程中，阅读全文

posted @ 2020-08-04 17:05 shaoyayu 阅读(180) 评论(0) 推荐(0)

Hive 运行方式、GUI接口和权限管理

摘要：Hive 运行方式、GUI接口和权限管理 Hive 运行方式 1、命令行方式CLI ：控制台方式不光是可以执行HSQL命令，还可以执行DFS命令，也可以执行本地系统命令，如 hive > ! ls / 2、脚本运行方式（生产环境中应用很多） []$ hive -e "select * f 阅读全文

posted @ 2020-08-04 17:03 shaoyayu 阅读(618) 评论(0) 推荐(0)

Hive 分桶

摘要：Hive 分桶 1、hive分桶分桶表是对列值取哈希值的方式，将不同数据放到不同文件中存储。对于hive中每一个表分区都可以进一步进行分桶。由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。适用场景: 数据抽样(sampling ) 2、开启支持分桶开启分桶 set hive.en 阅读全文

posted @ 2020-08-04 17:01 shaoyayu 阅读(293) 评论(0) 推荐(0)

Hive 动态分区

摘要：Hive 动态分区 Hive 参数 hive 参数、变量 hive当中的参数、变量，都是以命名空间开头命名空间读写权限含义 hiveconf 可读写 hive-site.xml当中的各配置变量例：hive --hiveconf hive.cli.print.header=true syste 阅读全文

posted @ 2020-08-04 17:00 shaoyayu 阅读(1859) 评论(1) 推荐(1)

Hive 函数

摘要：Hive 函数开发文档 1.内置运算符 1.1关系运算符运算符类型说明 A = B 所有原始类型如果A与B相等,返回TRUE,否则返回FALSE A == B 无失败，因为无效的语法。 SQL使用”=”，不使用”==”。 A <> B 所有原始类型如果A不等于B返回TRUE,否则返回F 阅读全文

posted @ 2020-08-04 16:54 shaoyayu 阅读(195) 评论(0) 推荐(0)

Hive DML

摘要：Hive DML 删除表中的数据： truncate table table_name 删除表的数据从查询将数据插入Hive表可以使用insert子句将查询结果插入表中。 Hive extension (multiple inserts): FROM from_statement INSERT 阅读全文

posted @ 2020-08-04 16:51 shaoyayu 阅读(115) 评论(0) 推荐(0)

HIVE分区

摘要：HIVE分区简单分区 hive> CREATE TABLE psn_2( > id int, > name string, > likes array<string>, > address map<string,string> > ) > PARTITIONED BY (age int) > RO 阅读全文

posted @ 2020-08-04 16:46 shaoyayu 阅读(384) 评论(0) 推荐(0)

HIVE的入门

摘要：HIVE的入门 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 创建/删除/更改/使用数据库创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_nam 阅读全文

posted @ 2020-08-04 16:44 shaoyayu 阅读(253) 评论(0) 推荐(0)

Hive的搭建环境

摘要：Hive的搭建环境自己必须搭建好hdfs集群和mysql环境 MYSQL的安装配置 yum安装Mysql 如果你的yum数据源里面没有找到mysql-server 请下载安装MYSQL的数据源 $ wget http://repo.mysql.com/mysql-community-release 阅读全文

posted @ 2020-08-04 16:43 shaoyayu 阅读(410) 评论(0) 推荐(0)

Hive 基础

摘要：Hive基础看了好多文章，还是觉得这个up写的我个人好理解点转载地址：https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具阅读全文

posted @ 2020-08-04 16:32 shaoyayu 阅读(278) 评论(0) 推荐(0)

MapReduce TFIDF 案列

摘要：TFIDF 案列概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。 TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次阅读全文

posted @ 2020-08-04 16:28 shaoyayu 阅读(176) 评论(0) 推荐(0)

MapReduce PageRank案列

摘要：PageRank案列什么是pagerank PageRank是Google提出的算法，用于衡量特定网页相对于搜索引擎索弓中的其他网页而言的重要程度。是Google创始人拉里佩奇和谢尔盖布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。计算环境 Hadoop-2.5.2 阅读全文

posted @ 2020-08-04 16:26 shaoyayu 阅读(262) 评论(0) 推荐(0)

MapReduce好友推荐案例

摘要：MapReduce好友推荐案例好友序列 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hell 阅读全文

posted @ 2020-08-04 16:23 shaoyayu 阅读(265) 评论(0) 推荐(0)

shaoyayu

热爱微服务、数据中台、三维重建和孪生系统。

随笔分类 - 大数据

公告