Super_Orco

[置顶] 各模块启动

摘要：启动hdfs-2.7.3： hdfs和yarn生产环境下是不启动在同一个节点的，hdfs启动在node1 1、启动hdfs /home/orco/resources/hadoop-2.7.3/sbin/start-dfs.sh 2、访问 http://node1:50070 暂不知配在哪里，可能是h 阅读全文

posted @ 2017-06-16 10:32 Super_Orco 阅读(451) 评论(0) 推荐(0)

2017年11月24日

HBase1.2.6 javaapi查看rowkey 所在分区等信息

摘要： Connection connection = HBaseFactory.getIns().getHbaseConn(); RegionLocator r= connection.getRegionLocator(TableName.valueOf("mk")); HRegionLocation location = r.getRegionLocation(Byt... 阅读全文

posted @ 2017-11-24 15:21 Super_Orco 阅读(1240) 评论(0) 推荐(0)

HBase1.2.6 预分区后，数据不进入预定分区的一个 bug

摘要： rowkey 如下： 1900001511504290000151150439000015115044900001511504590000151150469000015115047900001511504 插入代码如下：分区预创建后，rowkey 不能落入预定的分区，最后发现问题在把 Long. 阅读全文

posted @ 2017-11-24 14:27 Super_Orco 阅读(541) 评论(0) 推荐(0)

2017年9月12日

SparkStreaming程序设计

摘要：一个简单的 Streamin wordCount 1、wordCountDir：是一个目录，对于目录中的新文件才有效，目录中已存在的文件是无视的 2、复制文件进这个目录，文件需要有后缀名，可能有一个机制，对于没有后缀名的文件，会过滤掉，当成文件夹处理阅读全文

posted @ 2017-09-12 22:07 Super_Orco 阅读(209) 评论(0) 推荐(0)

2017年8月26日

SparkSQL程序设计

摘要： 1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont 阅读全文

posted @ 2017-08-26 21:46 Super_Orco 阅读(660) 评论(0) 推荐(1)

2017年8月16日

Spark SQL概述

摘要：前言：一些逻辑用spark core 来写，会比较麻烦，如果用sql 来表达，那简直太方便了一、Spark SQL 是什么是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法： sql 查询 DataFrames/Datasets API Spark SQL = 阅读全文

posted @ 2017-08-16 15:19 Super_Orco 阅读(750) 评论(0) 推荐(0)

2017年8月10日

常用RDD

摘要：只作为我个人笔记，没有过多解释 Transfor map filter filter之后，依然有三个分区，第二个分区为空，但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key，只把va 阅读全文

posted @ 2017-08-10 22:21 Super_Orco 阅读(338) 评论(0) 推荐(0)

2017年8月9日

spark程序设计

摘要： Spark程序设计—创建RDD：从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样，只不过名字不一样 Spark程序设计—创建RDD：本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF 阅读全文

posted @ 2017-08-09 23:08 Super_Orco 阅读(322) 评论(0) 推荐(0)

2017年7月11日

kafka的javaapi生产者生产消息，消费者获取不到

摘要： zookeeper和kafka的日志没有出现什么报错 linux下kafka的命令行能生产并收到消费消息但是在idea（windows环境下）中，调用api，获取不到数据，也生产不了数据，现象就是没任何反应如果网上其他解决办法，对你都没用，不妨试试下面这两天你的虚拟机ip是不是变了？windo 阅读全文

posted @ 2017-07-11 11:40 Super_Orco 阅读(2066) 评论(1) 推荐(0)

2017年7月9日

shell脚本批量启动zookeeper

摘要：脚本名称为zk_run.sh 将下面代码粘贴进zk_run.sh 添加执行权限 chmode +x zk_run.sh 运行脚本 ./zk_run.sh start 如果发现zookeeper没有启动起来，尝试在每个zookeeper的zookeeper-3.4.10/bin/zkEnv.sh脚本最阅读全文

posted @ 2017-07-09 15:07 Super_Orco 阅读(3086) 评论(0) 推荐(0)

2017年7月2日

sparkSQL——DataFrame&Datasets

摘要：对于新司机，可能看到sc与spark不知道是什么，看图知意 ************************************************************************************************************************ 阅读全文

posted @ 2017-07-02 22:41 Super_Orco 阅读(671) 评论(0) 推荐(0)

2017年6月23日

spark深入：配置文件与日志

摘要：一、第一部分 1、spark2.1与hadoop2.7.3集成，spark on yarn模式下，需要对hadoop的配置文件yarn-site.xml增加内容，如下： 2、spark的conf/spark-defaults.conf配置如果你是运行在yarn之上的话，就要告诉yarn，你spar 阅读全文

posted @ 2017-06-23 17:15 Super_Orco 阅读(15960) 评论(0) 推荐(1)

spark2.10安装部署（集成hadoop2.7+）

摘要：这里默认你的hadoop是已经安装好的，master是node1，slaver是node2-3，hdfs启动在node1，yarn启动在node2，如果没安装好hadoop可以看我前面的文章因为这里是spark和hadoop集成，我已经预先启动好了hdfs 和 yarn；MapReduce His 阅读全文

posted @ 2017-06-23 16:11 Super_Orco 阅读(6990) 评论(0) 推荐(0)

2017年6月22日

spark概述

摘要： Spark背景：MapReduce局限性 MapReduce框架局限性 1、仅支持Map和Reduce两种操作，提供给用户的只有这两种操作 2、处理效率低效 Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据任务调度和启动开销大：mr的启动开销一，客户端需要把应用程序提阅读全文

posted @ 2017-06-22 17:30 Super_Orco 阅读(1281) 评论(0) 推荐(0)

2017年6月21日

presto 0.166安装部署

摘要：系统：linux java：jdk 8，64-bit Connector：hive 分布式，node1-3 node1：Coordinator 、 Discovery service node2-3：Worker 开始安装部署除了标红的需要在node2-3上特殊处理，其他设置和node1一样，下面阅读全文

posted @ 2017-06-21 16:30 Super_Orco 阅读(1869) 评论(0) 推荐(0)

presto 0.166概述

摘要： presto是什么是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级使用的技术，如向量计算，动阅读全文

posted @ 2017-06-21 16:19 Super_Orco 阅读(23419) 评论(1) 推荐(1)

2017年6月17日

hdfs启动后进入safe mode，Problem connecting to server

摘要：原创文章：http://blog.csdn.net/renfengjun/article/details/25320043 DN中日志如下： 2017-06-17 06:35:59,242 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: P 阅读全文

posted @ 2017-06-17 21:46 Super_Orco 阅读(526) 评论(0) 推荐(0)

2017年6月16日

hive报错汇总

摘要： 1、需要注意的是，要在namenode（超级用户）上操作，貌似是解决办法，参考：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html 阅读全文

posted @ 2017-06-16 15:53 Super_Orco 阅读(1774) 评论(0) 推荐(0)

2017年6月15日

hive优化

摘要： Hive优化：MR阶段优化– 调整task数目 Hive优化：MR阶段优化– Reduce阶段 mapreduce.job.reduces直接设置num_reduce_tasks⼤⼩影响参数• hive.exec.reducers.max 默认:1099• hive.exec.reducers.by 阅读全文

posted @ 2017-06-15 16:28 Super_Orco 阅读(247) 评论(0) 推荐(0)

Hive练习

摘要：一、基础DDL练习二、基础DML语句三、复杂数据类型四、数据模型-分区为减少不必要的暴力数据扫描，可以对表进行分区，为避免产生过多小文件，建议只对离散字段进行分区六、外部表 external关键字，删除表时，外部表只删除元数据，不删除数据，更加安全七、列式存储在Create/Alter 阅读全文

posted @ 2017-06-15 15:07 Super_Orco 阅读(1409) 评论(0) 推荐(0)

公告