随笔档案「2017年6月」 - Super_Orco

spark深入：配置文件与日志

摘要：一、第一部分 1、spark2.1与hadoop2.7.3集成，spark on yarn模式下，需要对hadoop的配置文件yarn-site.xml增加内容，如下： 2、spark的conf/spark-defaults.conf配置如果你是运行在yarn之上的话，就要告诉yarn，你spar 阅读全文

posted @ 2017-06-23 17:15 Super_Orco 阅读(15977) 评论(0) 推荐(1)

spark2.10安装部署（集成hadoop2.7+）

摘要：这里默认你的hadoop是已经安装好的，master是node1，slaver是node2-3，hdfs启动在node1，yarn启动在node2，如果没安装好hadoop可以看我前面的文章因为这里是spark和hadoop集成，我已经预先启动好了hdfs 和 yarn；MapReduce His 阅读全文

posted @ 2017-06-23 16:11 Super_Orco 阅读(7007) 评论(0) 推荐(0)

spark概述

摘要：Spark背景：MapReduce局限性 MapReduce框架局限性 1、仅支持Map和Reduce两种操作，提供给用户的只有这两种操作 2、处理效率低效 Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据任务调度和启动开销大：mr的启动开销一，客户端需要把应用程序提阅读全文

posted @ 2017-06-22 17:30 Super_Orco 阅读(1294) 评论(0) 推荐(0)

presto 0.166安装部署

摘要：系统：linux java：jdk 8，64-bit Connector：hive 分布式，node1-3 node1：Coordinator 、 Discovery service node2-3：Worker 开始安装部署除了标红的需要在node2-3上特殊处理，其他设置和node1一样，下面阅读全文

posted @ 2017-06-21 16:30 Super_Orco 阅读(1874) 评论(0) 推荐(0)

presto 0.166概述

摘要：presto是什么是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级使用的技术，如向量计算，动阅读全文

posted @ 2017-06-21 16:19 Super_Orco 阅读(23466) 评论(1) 推荐(1)

hdfs启动后进入safe mode，Problem connecting to server

摘要：原创文章：http://blog.csdn.net/renfengjun/article/details/25320043 DN中日志如下： 2017-06-17 06:35:59,242 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: P 阅读全文

posted @ 2017-06-17 21:46 Super_Orco 阅读(532) 评论(0) 推荐(0)

hive报错汇总

摘要：1、需要注意的是，要在namenode（超级用户）上操作，貌似是解决办法，参考：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html 阅读全文

posted @ 2017-06-16 15:53 Super_Orco 阅读(1784) 评论(0) 推荐(0)

各模块启动

摘要：启动hdfs-2.7.3： hdfs和yarn生产环境下是不启动在同一个节点的，hdfs启动在node1 1、启动hdfs /home/orco/resources/hadoop-2.7.3/sbin/start-dfs.sh 2、访问 http://node1:50070 暂不知配在哪里，可能是h 阅读全文

posted @ 2017-06-16 10:32 Super_Orco 阅读(460) 评论(0) 推荐(0)

hive优化

摘要：Hive优化：MR阶段优化– 调整task数目 Hive优化：MR阶段优化– Reduce阶段 mapreduce.job.reduces直接设置num_reduce_tasks⼤⼩影响参数• hive.exec.reducers.max 默认:1099• hive.exec.reducers.by 阅读全文

posted @ 2017-06-15 16:28 Super_Orco 阅读(261) 评论(0) 推荐(0)

Hive练习

摘要：一、基础DDL练习二、基础DML语句三、复杂数据类型四、数据模型-分区为减少不必要的暴力数据扫描，可以对表进行分区，为避免产生过多小文件，建议只对离散字段进行分区六、外部表 external关键字，删除表时，外部表只删除元数据，不删除数据，更加安全七、列式存储在Create/Alter 阅读全文

posted @ 2017-06-15 15:07 Super_Orco 阅读(1421) 评论(0) 推荐(0)

Hive2.2.1安装使用

摘要：解压缩hive安装包tar zxvf apache-hive-2.1.1-bin.tar.gz安装mysqlsudo yum install mysql-server安装 mysql connectorsudo yum install mysql-connector-java该命令会在/usr/sh 阅读全文

posted @ 2017-06-14 22:22 Super_Orco 阅读(1682) 评论(0) 推荐(0)

MapReduce概述

摘要：MapReduce 源自于Google的MapReduce论文，Hadoop MapReduce是Google MapReduce克隆版 MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长的地方实时计算，不能像MySQL一样，在毫秒级或者秒级内返回结果流式计算，MapR 阅读全文

posted @ 2017-06-07 14:09 Super_Orco 阅读(730) 评论(0) 推荐(0)

idea打jar包

摘要：得，来介绍下IDEA下如何打JAR包吧，包含所有依赖 1、 2、 3、 4、点ok后我的示例，直接ok 5、 6、阅读全文

posted @ 2017-06-07 09:03 Super_Orco 阅读(225) 评论(0) 推荐(0)

kafka

摘要：replication-factor 指定副本数，一般是2或者3（3耗空间，他不是数据存储系统，只是一个缓存，所以2就可以了） partitions 指定分区数，如果是1，则会有一个很严重的问题，没有并发删除 topic bin/kafka-topics.sh --delete --zookeep 阅读全文

posted @ 2017-06-05 11:13 Super_Orco 阅读(145) 评论(0) 推荐(0)

大数据生态，哪些框架需要全部启动，哪些只启动master，仅为汇总

摘要：主从，只需要在master节点启动 hadoop hbase 单机启动 hive 其他，需要启动每个节点 zookeeper kafka flume presto 阅读全文

posted @ 2017-06-03 18:48 Super_Orco 阅读(218) 评论(0) 推荐(0)

Hbase1.2.4概述

摘要：安装Hbase的时候，需要注意版本与Hadoop的版本兼容，具体查看：https://hbase.apache.org/book.html#basic.prerequisites 如下图：我的Hadoop2.7.3 概述： HBase是⼀个构建在HDFS上的分布式列存储系统 Hbase读写强一致性阅读全文

posted @ 2017-06-01 14:39 Super_Orco 阅读(383) 评论(0) 推荐(0)

Super_Orco

06 2017 档案

公告