摘要: 启动hdfs-2.7.3: hdfs和yarn生产环境下是不启动在同一个节点的,hdfs启动在node1 1、启动hdfs /home/orco/resources/hadoop-2.7.3/sbin/start-dfs.sh 2、访问 http://node1:50070 暂不知配在哪里,可能是h 阅读全文
posted @ 2017-06-16 10:32 Super_Orco 阅读(441) 评论(0) 推荐(0) 编辑
摘要: Connection connection = HBaseFactory.getIns().getHbaseConn(); RegionLocator r= connection.getRegionLocator(TableName.valueOf("mk")); HRegionLocation location = r.getRegionLocation(Byt... 阅读全文
posted @ 2017-11-24 15:21 Super_Orco 阅读(1229) 评论(0) 推荐(0) 编辑
摘要: rowkey 如下: 1900001511504290000151150439000015115044900001511504590000151150469000015115047900001511504 插入代码如下: 分区预创建后,rowkey 不能落入预定的分区,最后发现问题在 把 Long. 阅读全文
posted @ 2017-11-24 14:27 Super_Orco 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 一个简单的 Streamin wordCount 1、wordCountDir:是一个目录,对于目录中的新文件才有效,目录中已存在的文件是无视的 2、复制文件进这个目录,文件需要有后缀名,可能有一个机制,对于没有后缀名的文件,会过滤掉,当成文件夹处理 阅读全文
posted @ 2017-09-12 22:07 Super_Orco 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont 阅读全文
posted @ 2017-08-26 21:46 Super_Orco 阅读(651) 评论(0) 推荐(1) 编辑
摘要: 前言:一些逻辑用spark core 来写,会比较麻烦,如果用sql 来表达,那简直太方便了 一、Spark SQL 是什么 是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法: sql 查询 DataFrames/Datasets API Spark SQL = 阅读全文
posted @ 2017-08-16 15:19 Super_Orco 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 只作为我个人笔记,没有过多解释 Transfor map filter filter之后,依然有三个分区,第二个分区为空,但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key,只把va 阅读全文
posted @ 2017-08-10 22:21 Super_Orco 阅读(327) 评论(0) 推荐(0) 编辑
摘要: Spark程序设计—创建RDD:从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样,只不过名字不一样 Spark程序设计—创建RDD:本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF 阅读全文
posted @ 2017-08-09 23:08 Super_Orco 阅读(295) 评论(0) 推荐(0) 编辑
摘要: zookeeper和kafka的日志没有出现什么报错 linux下kafka的命令行能生产并收到消费消息 但是在idea(windows环境下)中,调用api,获取不到数据,也生产不了数据,现象就是没任何反应 如果网上其他解决办法,对你都没用,不妨试试下面 这两天你的虚拟机ip是不是变了?windo 阅读全文
posted @ 2017-07-11 11:40 Super_Orco 阅读(2049) 评论(1) 推荐(0) 编辑
摘要: 脚本名称为zk_run.sh 将下面代码粘贴进zk_run.sh 添加执行权限 chmode +x zk_run.sh 运行脚本 ./zk_run.sh start 如果发现zookeeper没有启动起来,尝试在每个zookeeper的zookeeper-3.4.10/bin/zkEnv.sh脚本最 阅读全文
posted @ 2017-07-09 15:07 Super_Orco 阅读(3050) 评论(0) 推荐(0) 编辑
摘要: 对于新司机,可能看到sc与spark不知道是什么,看图知意 ************************************************************************************************************************ 阅读全文
posted @ 2017-07-02 22:41 Super_Orco 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 一、第一部分 1、spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下: 2、spark的conf/spark-defaults.conf配置 如果你是运行在yarn之上的话,就要告诉yarn,你spar 阅读全文
posted @ 2017-06-23 17:15 Super_Orco 阅读(15830) 评论(0) 推荐(1) 编辑
摘要: 这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章 因为这里是spark和hadoop集成,我已经预先启动好了hdfs 和 yarn;MapReduce His 阅读全文
posted @ 2017-06-23 16:11 Super_Orco 阅读(6925) 评论(0) 推荐(0) 编辑
摘要: Spark背景:MapReduce局限性 MapReduce框架局限性 1、仅支持Map和Reduce两种操作,提供给用户的只有这两种操作 2、处理效率低效 Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 任务调度和启动开销大:mr的启动开销一,客户端需要把应用程序提 阅读全文
posted @ 2017-06-22 17:30 Super_Orco 阅读(1255) 评论(0) 推荐(0) 编辑
摘要: 系统:linux java:jdk 8,64-bit Connector:hive 分布式,node1-3 node1:Coordinator 、 Discovery service node2-3:Worker 开始安装部署 除了标红的需要在node2-3上特殊处理,其他设置和node1一样,下面 阅读全文
posted @ 2017-06-21 16:30 Super_Orco 阅读(1851) 评论(0) 推荐(0) 编辑
摘要: presto是什么 是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎 是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏ ⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级 使用的技术,如向量计算,动 阅读全文
posted @ 2017-06-21 16:19 Super_Orco 阅读(23238) 评论(1) 推荐(1) 编辑
摘要: 原创文章:http://blog.csdn.net/renfengjun/article/details/25320043 DN中日志如下: 2017-06-17 06:35:59,242 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: P 阅读全文
posted @ 2017-06-17 21:46 Super_Orco 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 1、需要注意的是,要在namenode(超级用户)上操作,貌似是 解决办法,参考:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html 阅读全文
posted @ 2017-06-16 15:53 Super_Orco 阅读(1695) 评论(0) 推荐(0) 编辑
摘要: Hive优化:MR阶段优化– 调整task数目 Hive优化:MR阶段优化– Reduce阶段 mapreduce.job.reduces直接设置num_reduce_tasks⼤⼩影响参数• hive.exec.reducers.max 默认:1099• hive.exec.reducers.by 阅读全文
posted @ 2017-06-15 16:28 Super_Orco 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 一、基础DDL练习 二、基础DML语句 三、复杂数据类型 四、数据模型-分区 为减少不必要的暴力数据扫描,可以对表进行分区,为避免产生过多小文件,建议只对离散字段进行分区 六、外部表 external关键字,删除表时,外部表只删除元数据,不删除数据,更加安全 七、列式存储 在Create/Alter 阅读全文
posted @ 2017-06-15 15:07 Super_Orco 阅读(1372) 评论(0) 推荐(0) 编辑