随笔分类 - 大数据
Hadoop大数据生态
摘要:Quick Start - Standalone HBase 1、简单配置 选择一个 Apache 下载镜像,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.gz 的文件; 例如 hbase-0.95-SNAPSHOT.tar.gz. 解压缩,然后进入到那个要
阅读全文
摘要:HBase架构 HBase隶属于hadoop生态系统,它参考了谷歌的BigTable建模,实现的编程语言为 Java, 建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它仅能通过主键(row key)和主键的range来检索数据,主要用来存储非结构化和半结构化的松散数
阅读全文
摘要:HBase 入门 Hadoop中的HBase ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 简介: 非关系型数据库知识面扩展 Cassandra hbase mongo
阅读全文
摘要:Hive 优化 Hive优化 核心思想:把Hive SQL当做Mapreduce程序去优化 以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Explain显示执行计划 EXPLAIN [EXTENDED] query Hive抓取策略: Hi
阅读全文
摘要:查询语法 翻译版 原文:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 选择语法 [WITH CommonTableExpression (, CommonTableExpression)*] (Note:
阅读全文
摘要:Hive DDL 中文文档 总览 HiveQL DDL语句在此处记录,包括: 创建数据库/架构,表,视图,函数,索引 删除数据库/架构,表,视图,索引 截断表 ALTER DATABASE / SCHEMA,表格,视图 MSCK维修表(或更改表恢复分区) 显示数据库/架构,表,TBL属性,视图,分区
阅读全文
摘要:HIVE DML 中文文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 将文件加载到表中 Hive在将数据加载到表中时不会进行任何转换。加载操作当前是纯复制/移动操作,可将数据文件移动到与Hive表相对应的位
阅读全文
摘要:Hive 其他 Hive Lateral View hive Lateral View Lateral View用于和UDTF函数(explode、 split) 结合来使用。 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。 主要解决在select使用UDTF做查询过程中,
阅读全文
摘要:Hive 运行方式、GUI接口和权限管理 Hive 运行方式 1、 命令行方式CLI :控制台方式 不光是可以执行HSQL命令,还可以执行DFS命令, 也可以执行本地系统命令,如 hive > ! ls / 2、脚本运行方式 (生产环境中应用很多) []$ hive -e "select * f
阅读全文
摘要:Hive 分桶 1、hive分桶 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。 对于hive中每一 个表分区都可以进一 步进行分桶。 由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。 适用场景: 数据抽样(sampling ) 2、开启支持分桶 开启分桶 set hive.en
阅读全文
摘要:Hive 动态分区 Hive 参数 hive 参数、变量 hive当中的参数、变量,都是以命名空间开头 命名空间 读写权限 含义 hiveconf 可读写 hive-site.xml当中的各配置变量 例:hive --hiveconf hive.cli.print.header=true syste
阅读全文
摘要:Hive 函数 开发文档 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回F
阅读全文
摘要:Hive DML 删除表中的数据: truncate table table_name 删除表的数据 从查询将数据插入Hive表 可以使用insert子句将查询结果插入表中。 Hive extension (multiple inserts): FROM from_statement INSERT
阅读全文
摘要:HIVE分区 简单分区 hive> CREATE TABLE psn_2( > id int, > name string, > likes array<string>, > address map<string,string> > ) > PARTITIONED BY (age int) > RO
阅读全文
摘要:HIVE的入门 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 创建/删除/更改/使用数据库 创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_nam
阅读全文
摘要:Hive的搭建环境 自己必须搭建好hdfs集群和mysql环境 MYSQL的安装配置 yum安装Mysql 如果你的yum数据源里面没有找到mysql-server 请下载安装MYSQL的数据源 $ wget http://repo.mysql.com/mysql-community-release
阅读全文
摘要:Hive基础 看了好多文章,还是觉得这个up写的我个人好理解点 转载地址:https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介 什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具
阅读全文
摘要:TFIDF 案列 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次
阅读全文
摘要:PageRank案列 什么是pagerank PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索弓中的其他网页而言的重要程度。 是Google创始人拉里佩奇和谢尔盖布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。 计算环境 Hadoop-2.5.2
阅读全文
摘要:MapReduce好友推荐案例 好友序列 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hell
阅读全文

浙公网安备 33010602011771号