06 2017 档案
摘要:一、第一部分 1、spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下: 2、spark的conf/spark-defaults.conf配置 如果你是运行在yarn之上的话,就要告诉yarn,你spar
阅读全文
摘要:这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章 因为这里是spark和hadoop集成,我已经预先启动好了hdfs 和 yarn;MapReduce His
阅读全文
摘要:Spark背景:MapReduce局限性 MapReduce框架局限性 1、仅支持Map和Reduce两种操作,提供给用户的只有这两种操作 2、处理效率低效 Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 任务调度和启动开销大:mr的启动开销一,客户端需要把应用程序提
阅读全文
摘要:系统:linux java:jdk 8,64-bit Connector:hive 分布式,node1-3 node1:Coordinator 、 Discovery service node2-3:Worker 开始安装部署 除了标红的需要在node2-3上特殊处理,其他设置和node1一样,下面
阅读全文
摘要:presto是什么 是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎 是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏ ⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级 使用的技术,如向量计算,动
阅读全文
摘要:原创文章:http://blog.csdn.net/renfengjun/article/details/25320043 DN中日志如下: 2017-06-17 06:35:59,242 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: P
阅读全文
摘要:1、需要注意的是,要在namenode(超级用户)上操作,貌似是 解决办法,参考:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html
阅读全文
摘要:启动hdfs-2.7.3: hdfs和yarn生产环境下是不启动在同一个节点的,hdfs启动在node1 1、启动hdfs /home/orco/resources/hadoop-2.7.3/sbin/start-dfs.sh 2、访问 http://node1:50070 暂不知配在哪里,可能是h
阅读全文
摘要:Hive优化:MR阶段优化– 调整task数目 Hive优化:MR阶段优化– Reduce阶段 mapreduce.job.reduces直接设置num_reduce_tasks⼤⼩影响参数• hive.exec.reducers.max 默认:1099• hive.exec.reducers.by
阅读全文
摘要:一、基础DDL练习 二、基础DML语句 三、复杂数据类型 四、数据模型-分区 为减少不必要的暴力数据扫描,可以对表进行分区,为避免产生过多小文件,建议只对离散字段进行分区 六、外部表 external关键字,删除表时,外部表只删除元数据,不删除数据,更加安全 七、列式存储 在Create/Alter
阅读全文
摘要:解压缩hive安装包tar zxvf apache-hive-2.1.1-bin.tar.gz安装mysqlsudo yum install mysql-server安装 mysql connectorsudo yum install mysql-connector-java该命令会在/usr/sh
阅读全文
摘要:MapReduce 源自于Google的MapReduce论文,Hadoop MapReduce是Google MapReduce克隆版 MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长的地方 实时计算,不能像MySQL一样,在毫秒级或者秒级内返回结果 流式计算,MapR
阅读全文
摘要:得,来介绍下IDEA下如何打JAR包吧,包含所有依赖 1、 2、 3、 4、点ok后我的示例,直接ok 5、 6、
阅读全文
摘要:replication-factor 指定副本数,一般是2或者3(3耗空间,他不是数据存储系统,只是一个缓存,所以2就可以了) partitions 指定分区数,如果是1,则会有一个很严重的问题,没有并发 删除 topic bin/kafka-topics.sh --delete --zookeep
阅读全文
摘要:主从,只需要在master节点启动 hadoop hbase 单机启动 hive 其他,需要启动每个节点 zookeeper kafka flume presto
阅读全文
摘要:安装Hbase的时候,需要注意版本与Hadoop的版本兼容,具体查看:https://hbase.apache.org/book.html#basic.prerequisites 如下图: 我的Hadoop2.7.3 概述: HBase是⼀个构建在HDFS上的分布式列存储系统 Hbase读写强一致性
阅读全文

浙公网安备 33010602011771号