Hadoop/Spark/Hive - 随笔分类(第2页) - 爱知菜

Lambda 架构 Speed Layer 详解

摘要：目前实时层比较流行的一个解决方案是Flume + Kafka + Storm/Spark Streaming/Flink + Redis. Redis 是一个很有意思的内存数据库, 它支持五种数据结构, 并且有很多很有意思的API和使用方式, 在Speed layer中, 它充当数据库的角色. St 阅读全文

posted @ 2019-01-04 18:56 爱知菜阅读(32) 评论(0) 推荐(0)

Lambda 架构 Batch Layer & Serving Layer 详解

摘要：前文链接: https://blog.csdn.net/rav009/article/details/85690985 继续介绍 Lambda结构一些理念: fact-based model 在关系型数据库的时代，我们通过维度表和事实表来组成数据仓库。但是到了大数据时代，由于数据的容量不再受到限制阅读全文

posted @ 2019-01-03 16:16 爱知菜阅读(46) 评论(0) 推荐(0)

Lambda 架构简介

摘要：上图就是lambda结构的一个示意, 来自图书Big Data Principles and best practices of scalable realtime data system, 该书的作者就是lambda架构的创造者Nathan Marz。大数据的技术手段百花齐放, 各种NoSQL数阅读全文

posted @ 2019-01-03 13:55 爱知菜阅读(90) 评论(0) 推荐(0)

hive 使用 beeline 执行hql传参数; hive 使用distcp 和 MSCK 进行hive数据库迁移

摘要：beeline 命令 -u 指定链接 -e 指定hql -f 指定hql文件 --hiveconf 指定传参数, 参数在hql里形如 ${hiveconf:var}, 要有hiveconf:前缀 jdbc='jdbc:hive2://bd-master01-pe2.f.cn:10000/defaul 阅读全文

posted @ 2018-12-21 18:34 爱知菜阅读(92) 评论(0) 推荐(0)

企业级大数据的安全方案 & Kerberos 的 expire 及 renew说明

摘要：企业级大数据集群有两个层面的安全系统：一个是每一台服务器的本地有个linux的账户系统，这个可以批量处理配置。为每个服务器建立一个本地的账号和组。用这个账号去SSH登录。另一个就是大数据集群，即Hadoop的账号系统，是Hadoop通过 Kerberos 协议实现的。Kerberos是一个协议，阅读全文

posted @ 2018-12-04 18:38 爱知菜阅读(47) 评论(0) 推荐(0)

CDH 大数据疑难解决一则

摘要：起因: Hive查询变慢观察: Cloudera Manager中某个Datanode报错, Health Chart每隔几分钟有红色不健康状态观察日志: 在 /data/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-dw-slave01-te.uniqlo- 阅读全文

posted @ 2018-11-02 17:44 爱知菜阅读(70) 评论(0) 推荐(0)

Pentaho Kettle 连接 CDH Hive (No suitable driver found for jdbc:hive2 错误解决方法)

摘要：关键点: 清理Kettle缓存: rm -rf /home/user/data-integration/./system/karaf/caches rm -rf /home/user/data-integration/./system/karaf/data karaf 是Kettle用于实现插件的一阅读全文

posted @ 2018-09-28 17:39 爱知菜阅读(151) 评论(1) 推荐(0)

大数据备份 -- CDH 向 Azure Storage 备份HDFS

摘要：转自: https://blogs.msdn.microsoft.com/pliu/2016/06/19/backup-cloudera-data-to-azure-storage/ Azure Blob Storage supports an HDFS interface which can be 阅读全文

posted @ 2018-09-28 10:07 爱知菜阅读(31) 评论(0) 推荐(0)

一句命令行判断hive CDH 版本

摘要：locate */hive/lib/hive*jar 转自: https://blog.csdn.net/sinat_27339001/article/details/78438947 locate */hive/lib/hive*jar | grep hive-exec 阅读全文

posted @ 2018-09-27 18:33 爱知菜阅读(23) 评论(0) 推荐(0)

Difference between orc and parquet format

摘要：参考: https://www.cnblogs.com/ITtangtang/p/7677912.html https://blog.csdn.net/yu616568/article/details/51868447 https://hortonworks.com/blog/orcfile-in- 阅读全文

posted @ 2018-09-14 17:28 爱知菜阅读(7) 评论(0) 推荐(0)

大数据Map Reduce 和 MPP数据库的区别

摘要：总结来说MR是一个编程模型，你可以用MR这个编程模型自己实现MPP所做的事。 MPP则是一种SQL的计算引擎。 “MR分而治之的策略” 和 “Massively Parallel Processor类型的数据库” （即大规模并行处理数据库，典型代表 AWS Redshift 和 Teradata 以阅读全文

posted @ 2018-09-06 16:37 爱知菜阅读(76) 评论(0) 推荐(0)

大数据OLAP Kylin

摘要：在传统的关系型数据库中通过预计算预缓存来实现OLAP分析查询并不新鲜, 微软的SSAS就是典型的代表. 不过由于SSAS在国外兴起的时候, 国内的大公司还没有意识到SSAS对于企业管理和业务支持的作用, 加上SSAS的正版售价问题. 这项技术在中国国内并不是很流行. 现在大数据炙手可热, 通过预计算阅读全文

posted @ 2018-09-05 15:32 爱知菜阅读(33) 评论(0) 推荐(0)

Hortonworks Yarn Logs

摘要：hortonworks hadoop conf path: /etc/hadoop/conf/ hortonworks 没有$HADOOP_HOME这个环境变量, 但有$SPARK_HOME(/usr/hdp/current/spark2-client), /usr/hdp/current/spar 阅读全文

posted @ 2018-07-25 22:44 爱知菜阅读(69) 评论(0) 推荐(0)

pyspark 浅析

摘要：Spark的scala也好, 还是pyspark也好, 它们的编程思想都是函数式编程, 关于函数式编程的解析可以看这篇文章: http://www.ruanyifeng.com/blog/2012/04/functional_programming.html 函数式编程只是返回新的值, 不修改原有的阅读全文

posted @ 2018-07-16 15:54 爱知菜阅读(28) 评论(0) 推荐(0)

Hive Transaction

摘要：http://www.aboutyun.com/thread-21615-1-1.html 好文章 Hive从0.13开始加入了事务支持，在行级别提供完整的ACID特性，Hive在0.14时加入了对INSERT...VALUES,UPDATE,and DELETE的支持。对于在Hive中使用ACID 阅读全文

posted @ 2018-07-11 21:56 爱知菜阅读(74) 评论(0) 推荐(0)

MapReduce 中用于划分数据的那些函数以及它们在streaming中的实现

摘要：MapReduce中有三个步骤用于划分大数据集, 给mapper和reducer提供数据 InputSplit 第一个是InputSplit, 它把数据划分成若干块提供给mapper 默认情况下是根据数据文件的block, 来划分, 一个block对应一个mapper, 优先在block所在的机器上阅读全文

posted @ 2018-07-10 17:25 爱知菜阅读(60) 评论(0) 推荐(0)

HDFS Yarn Oozie Hive 权限管理

摘要：HDFS HDFS的权限系统和普通linux的权限系统一样 , 每个文件或者文件夹都有三种权限: 拥有者, 相关组和其他人. 同时HDFS也支持ACL的权限机制, ACL是基础的权限机制的扩充版, 它丰富了基础的权限机制里"其他人"的权限. 可以为"其他人"指定 fine-grained的权限. h 阅读全文

posted @ 2018-07-10 15:45 爱知菜阅读(53) 评论(0) 推荐(0)

PageRank 算法 Spark实现(Scala + Python)

摘要：转自: https://plmsmile.github.io/2017/03/13/Spark-PairRDD/ PageRank PageRank的python版本 #!/usr/bin/env python # -*- coding: utf-8 -*- """ PageRank算法 autho 阅读全文

posted @ 2018-06-28 16:34 爱知菜阅读(94) 评论(0) 推荐(0)

Spark-on-Yarn集群的搭建

摘要：Spark master/deploy mode说明 spark driver：运⾏main函数并且新建SparkContext的程序，日志收集。对用户来说，最重要的体验就是当driver是本机时（deploy-mode=client模式），他们可以看到日志。 --deploy-mode: Whe 阅读全文

posted @ 2018-06-28 14:14 爱知菜阅读(24) 评论(0) 推荐(0)

Hadoop map-reduce 实现K-means聚类(combiner的使用)

摘要：K-means聚类简单回顾一下, 就是一个不停迭代的过程, 先随机若干个中心, 然后找出距离这几个中心最近的点, 然后把这些最近点的中心求出来作为新的中心. 使用map reducer来说 mapper的作用就是遍历所有点, 把这个点以及距离它最近的中心找到, 如果我们把点定义为D, 把中心定义为C 阅读全文

posted @ 2018-06-25 15:06 爱知菜阅读(20) 评论(0) 推荐(0)

爱知菜的技术博客

随笔分类 - Hadoop/Spark/Hive

公告