随笔分类 - 【大数据 | Hadoop】
摘要:#! /bin/sh base_dir=$(cd "$(dirname $0)"; pwd) export JAVA_HOME=/usr/java/jdk1.8.0_51 export PATH=/root/anaconda3/bin:/bin:/usr/lib64/qt-3.3/bin:/usr/
阅读全文
摘要:#!/bin/sh home=$(cd `dirname $0`;cd ..; pwd) .${home}/bin/common.sh hdfs dfs -mkdir -p {fsimage_detail_hdfs_path} hdfs dfs -rm -r ${fsimage_detail_hdf
阅读全文
摘要:今天碰到一个很奇怪的问题,impala查询34亿条数据报错,不过多亏网上有神仙相助,少了一个插件,具体原因有待思考,,,问题是原创的,解决方案是大神提供的 [cdh004:21000] > select count(*) from impala_100yi;Query: select count(*
阅读全文
摘要:前提:CDH5.16.2 由于数据量过多,磁盘大小太小,导致磁盘使用率高达90%以上,于是新增磁盘,可问题来了,如何将这两块磁盘上的数据进行均衡呢?本次基于CDH来做 1.设置dfs.disk.balancer.enabled 为true 2.生成平衡计划(cbp9.chinaoly.com为主机名
阅读全文
摘要:前言 昨天还是周末,公司群里就有人@,说集群有问题了,敲完Hive一直卡在那里进不去,于是我很快登上WebUi,看到了这么一幕:这台节点的磁盘满了,其他的数据分布都比较平均 为什么会这样 这里就不得不说一下HDFS复本存放策略了: namenode如何选择在哪个datanode存储复本(replic
阅读全文
摘要:版本关系 若使用Phoenix,需下载与当前使用MRS集群相对应的Phoenix版本,具体请参见http://phoenix.apache.org。其对应关系如表1所示: 表1 MRS与Phoenix版本对应关系一览表 MRS版本 Phoenix版本 备注 MRS 1.5.x及其之前版本 无 MRS
阅读全文
摘要:generate_train_data.py import pandas as pd import user_cf import operator import item_cf data_path = 'G:\\Bigdata_object\\u.data' udata = pd.read_csv(
阅读全文
摘要:最近启动 Hadoop, nodemanger 老挂,报kerberos 验证错误,各种查找原因,时间也同步,kint 也能登录到kerberos,一直找不到原因,最后发现是网关和远端的时间同步,但是不在同一个时区导致的问题 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1
阅读全文
摘要:大数据面试题整理 1、fsimage和edit的区别? 大家都知道namenode与secondary namenode 的关系,当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit,fsimage是保存最新的元数据的信息,当fsimage数据到一定的大小事会去生成一个新
阅读全文
摘要:一、简介 1、简介 简 介• Kafka是Linkedin于2010年12月份开源的消息系统• 一种分布式的、基于发布/订阅的消息系统 2、特点 – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息读写– 分布式:扩展能力强– 多客户端支持:java、php、py
阅读全文
摘要:在hive命令终端直接导入文本数据: 查看特征: 通过LOAD命令直接将hadoop文件系统上的文件导入,不加LOCAL hive数据导入另外一种方法: 从Hive导出数据到local本地 从Hive导出数据到HDFS上 利用partition导入,查询数据 创建UDF函数:
阅读全文
摘要:Hive drop table时没有反应,于是强制中断。 解决之法,对其进行补充。 mysql> show variables like 'char%';第一步:进入mysql,输入:show variables like 'char%'。显示如下 此时的character_set_database
阅读全文
摘要:一、前言 作为一个全栈工程师,必须要熟练掌握各种语言。。。HelloWorld。最近就被“逼着”走向了python开发之路,大体实现的功能是写一个通用类库将服务器本地存储的文件进行简单清洗后转储到HDFS中,所以基本上python的相关知识都涉及到了,这里对一些基础操作以及hdfs操作做一总结,以备
阅读全文
摘要:阅读目录 一、MapReduce 计算框架-执行流程 1、MapReduce 计算框架-执行流程 二、MapReduce深入 1、示例一、文件的分发与打包 ● 如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。Ha
阅读全文

浙公网安备 33010602011771号