随笔分类 - 00_大数据_bigdata
hadoop ,hive ,hdfs,数据平台,etl
摘要:1.transformation和action的区别 Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无
阅读全文
摘要:1:数据倾斜 理论 hive数据倾斜可能的原因有哪些?主要解决方法有哪些? 原因 1:数据倾斜多由于脏数据/特殊数据 (某一类数据集中) 2:大小表join 3:小文件过多; 解决方案 1:脏数据不参与关联,给特数据数据做随机(建表时) 2:使用mapjoin将小表加入内存。 3:合并小文件,通过s
阅读全文
摘要:Java 下载安装Mac对应版本的JDK。 Apache-spark 安装scala 其他包 验证
阅读全文
摘要:安装zkui zookeeper节点的可视化界面有很多种,我使用的是zkui,比较直观,而且可以导入文件,他的Git地址: https://github.com/DeemOpen/zkui。 使用 1、 从github上可以下载下来,maven clean install成jar,运行zkui-2.
阅读全文
摘要:环境:kafka 0.8.1.1 基本概念 zookeeper配置 修改zk的配置文件conf/zoo.cfg 启动zookeeper集群 kafka配置 分别修改kafka集群中每个节点的config/server.properties,这里做的是最简配置 启动broker(每台节点都要执行) 测
阅读全文
摘要:文章目录 [] Zookeeper简介 关于zk的介绍, zk的paxos算法, 网上已经有各位大神在写了, 本文主要写我在搭建过程中的几个极有可能遇到的坑. Zookeeper部署中的坑 坑之一 Error contacting service. It is probably not runnin
阅读全文
摘要:Eclipse 下开发调试环境的配置该小节中使用的各项工具分别为:mac (Windows 7)+Eclipse Java EE 4.4.2+Scala 2.10.4+Sbt 0.13.8+Maven3.3.3,测试的 Spark 版本为 1.4.0。1.配置 IDE:选择菜单项 Help->Ins
阅读全文
摘要:When Vectorization is turned on in Hive:set hive.vectorized.execution.enabled=true;If the involved table is in parquet rather than orc format, you may
阅读全文
摘要:现象: 集群大面积异常,通过ambari启动不起来。逐一排查,顺序 hdfs -> mapreduce->yarn->hive -other hdfs下发现namenode ,datanode启动不起来 namenode报错如下 【namenode.NameNode: Failed to start
阅读全文
摘要:haoop集群 做好内存管理跟重要,不然经常会给抛出个 OutMemory ,内存溢出 以horntonworks给出推荐配置为样本,给出一种常见的Hadoop集群上各组件的内存分配方案。配置时通过 ambari对应修改,或者后台同步修改 。 【样本】 he final calculation is
阅读全文
摘要:启动Hadoop之后,使用jps命令查看当前系统的java进程情况,显示: 这时可以通过进入本地文件系统的/tmp目录下,删除名称为hsperfdata_{username}的文件夹,然后重新启动Hadoop。
阅读全文
摘要:经常有这样的场景,需要批量验证一些配置或者机器,执行一些命令。例如 echo $PATH 等等 这里分享一个批量执行脚本 脚本名称 deployCommnd.sh 运行demo : sh deployCommnd.sh 'ps aux|grep hiveserver2 |grep -v "grep"
阅读全文
摘要:第一步:【db升级 ,先看第二步】 cd到 hive的 metastore upgrade目录 cd /usr/hdp/2.5.0.0-1245/hive/scripts/metastore/upgrade/mysql source 历史版本至升级版本的sql 第二步: 修改ambari hivem
阅读全文
摘要:本文转载:暂未找到原出处,如需署名 请联系 我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 20
阅读全文
摘要:问题一: php客户端,链接hiveserver2 ,报错 如下 1: server.TThreadPoolServer (TThreadPoolServer.java:run(215)) - Error occurred org.apache.hadoop.hive.thrift.HadoopTh
阅读全文

浙公网安备 33010602011771号