随笔分类 - Hadoop/Spark/Hive
摘要:目前实时层比较流行的一个解决方案是Flume + Kafka + Storm/Spark Streaming/Flink + Redis. Redis 是一个很有意思的内存数据库, 它支持五种数据结构, 并且有很多很有意思的API和使用方式, 在Speed layer中, 它充当数据库的角色. St
阅读全文
摘要:前文链接: https://blog.csdn.net/rav009/article/details/85690985 继续介绍 Lambda结构 一些理念: fact-based model 在关系型数据库的时代,我们通过维度表和事实表来组成数据仓库。但是到了大数据时代,由于数据的容量不再受到限制
阅读全文
摘要:上图就是lambda结构的一个示意, 来自图书Big Data Principles and best practices of scalable realtime data system, 该书的作者就是lambda架构的创造者Nathan Marz。 大数据的技术手段百花齐放, 各种NoSQL数
阅读全文
摘要:beeline 命令 -u 指定链接 -e 指定hql -f 指定hql文件 --hiveconf 指定传参数, 参数在hql里形如 ${hiveconf:var}, 要有hiveconf:前缀 jdbc='jdbc:hive2://bd-master01-pe2.f.cn:10000/defaul
阅读全文
摘要:企业级大数据集群有两个层面的安全系统: 一个是每一台服务器的本地有个linux的账户系统,这个可以批量处理配置。为每个服务器建立一个本地的账号和组。用这个账号去SSH登录。 另一个就是大数据集群,即Hadoop的账号系统,是Hadoop通过 Kerberos 协议实现的。Kerberos是一个协议,
阅读全文
摘要:起因: Hive查询变慢 观察: Cloudera Manager中某个Datanode报错, Health Chart每隔几分钟有红色不健康状态 观察日志: 在 /data/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-dw-slave01-te.uniqlo-
阅读全文
摘要:关键点: 清理Kettle缓存: rm -rf /home/user/data-integration/./system/karaf/caches rm -rf /home/user/data-integration/./system/karaf/data karaf 是Kettle用于实现插件的一
阅读全文
摘要:转自: https://blogs.msdn.microsoft.com/pliu/2016/06/19/backup-cloudera-data-to-azure-storage/ Azure Blob Storage supports an HDFS interface which can be
阅读全文
摘要:locate */hive/lib/hive*jar 转自: https://blog.csdn.net/sinat_27339001/article/details/78438947 locate */hive/lib/hive*jar | grep hive-exec
阅读全文
摘要:参考: https://www.cnblogs.com/ITtangtang/p/7677912.html https://blog.csdn.net/yu616568/article/details/51868447 https://hortonworks.com/blog/orcfile-in-
阅读全文
摘要:总结来说MR是一个编程模型,你可以用MR这个编程模型自己实现MPP所做的事。 MPP则是一种SQL的计算引擎。 “MR分而治之的策略” 和 “Massively Parallel Processor类型的数据库” (即大规模并行处理数据库,典型代表 AWS Redshift 和 Teradata 以
阅读全文
摘要:在传统的关系型数据库中通过预计算预缓存来实现OLAP分析查询并不新鲜, 微软的SSAS就是典型的代表. 不过由于SSAS在国外兴起的时候, 国内的大公司还没有意识到SSAS对于企业管理和业务支持的作用, 加上SSAS的正版售价问题. 这项技术在中国国内并不是很流行. 现在大数据炙手可热, 通过预计算
阅读全文
摘要:hortonworks hadoop conf path: /etc/hadoop/conf/ hortonworks 没有$HADOOP_HOME这个环境变量, 但有$SPARK_HOME(/usr/hdp/current/spark2-client), /usr/hdp/current/spar
阅读全文
摘要:Spark的scala也好, 还是pyspark也好, 它们的编程思想都是函数式编程, 关于函数式编程的解析可以看这篇文章: http://www.ruanyifeng.com/blog/2012/04/functional_programming.html 函数式编程只是返回新的值, 不修改原有的
阅读全文
摘要:http://www.aboutyun.com/thread-21615-1-1.html 好文章 Hive从0.13开始加入了事务支持,在行级别提供完整的ACID特性,Hive在0.14时加入了对INSERT...VALUES,UPDATE,and DELETE的支持。对于在Hive中使用ACID
阅读全文
摘要:MapReduce中有三个步骤用于划分大数据集, 给mapper和reducer提供数据 InputSplit 第一个是InputSplit, 它把数据划分成若干块提供给mapper 默认情况下是根据数据文件的block, 来划分, 一个block对应一个mapper, 优先在block所在的机器上
阅读全文
摘要:HDFS HDFS的权限系统和普通linux的权限系统一样 , 每个文件或者文件夹都有三种权限: 拥有者, 相关组和其他人. 同时HDFS也支持ACL的权限机制, ACL是基础的权限机制的扩充版, 它丰富了基础的权限机制里"其他人"的权限. 可以为"其他人"指定 fine-grained的权限. h
阅读全文
摘要:转自: https://plmsmile.github.io/2017/03/13/Spark-PairRDD/ PageRank PageRank的python版本 #!/usr/bin/env python # -*- coding: utf-8 -*- """ PageRank算法 autho
阅读全文
摘要:Spark master/deploy mode说明 spark driver: 运⾏main函数并且新建SparkContext的程序,日志收集。对用户来说,最重要的体验就是当driver是本机时(deploy-mode=client模式),他们可以看到日志。 --deploy-mode: Whe
阅读全文
摘要:K-means聚类简单回顾一下, 就是一个不停迭代的过程, 先随机若干个中心, 然后找出距离这几个中心最近的点, 然后把这些最近点的中心求出来作为新的中心. 使用map reducer来说 mapper的作用就是遍历所有点, 把这个点以及距离它最近的中心找到, 如果我们把点定义为D, 把中心定义为C
阅读全文