04 2020 档案
摘要:[Toc] 一、初认识Linux Linux内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。 目前市面上较知名的发行版有:Ubuntu、RedHat、CentOS、Debain、Fedora、SuSE、OpenSUSE。 二、Windows
        阅读全文
                
摘要:###一、初识大数据 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 1MB = 1024KB、1GB = 1024MB 1TB = 1024GB、1PB
        阅读全文
                
摘要:一、 "日志清洗" 二、 "日志清洗复杂版" 三、 "数据压缩" 四、 "共同好友" 五、 "倒排索引" 六、 "自定义输出路径" 七、 "小文件合并" 八、 "MapperJoin" 九、 "ReducerJoin" 十、 "二次排序与辅助排序" 十一、 "WordCount案例"
        阅读全文
                
摘要:[Toc] 数据仓库 一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
        阅读全文
                
摘要:一、 "Hive基本概念" 二、 "Hive安装环境准备" 三、 "Hive数据类型" 四、 "DDL数据定义" 五、 "DML数据操作" 六、 "查询" 七、 "函数" 八、 "压缩和存储" 九、 "企业级调优" 十、 "数据仓库"
        阅读全文
                
摘要:[Toc] 企业级调优 一、Fetch抓取 Fetch抓取是指, Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive de
        阅读全文
                
摘要:[Toc] 函数 一、系统自带函数 1)查看系统自带的函数 2)显示自带的函数的用法 3)详细显示自带的函数的用法 二、自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时
        阅读全文
                
摘要:[Toc] 查询 一、基本查询 1、全表和特定列查询 1)全表查询 2)选择特定列查询 注意: (1)SQL 语言大小写不敏感。 (2)SQL 可以写在一行或者多行 (3)关键字不能被缩写也不能分行 (4)各子句一般要分行写。 (5)使用缩进提高语句的可读性。 2、列别名 1)重命名一个列。 2)便
        阅读全文
                
摘要:[Toc] DML数据操作 一、数据导入 1、向表中装载数据(Load) 1)语法 2)实操案例 (1)创建一张表 (2)加载本地文件到hive (3)加载HDFS文件到hive中 (4)加载数据覆盖表中已有的数据 2、通过查询语句向表中插入数据(Insert) 1)创建一张分区表 2)基本插入数据
        阅读全文
                

浙公网安备 33010602011771号