2019年4月3日

摘要: hive与hbase表结合级联查询的问题,主要hive两个表以上涉及到join操作,就会长时间卡住,查询日志也不报错,也不会出现mr的进度百分比显示,shell显示如下图 如图: 解决这个问题,需要修改配置hive-site.xml,添加如下配置: 阅读全文
posted @ 2019-04-03 15:06 xiaoshiyun 阅读(532) 评论(0) 推荐(0) 编辑

2019年3月21日

摘要: Spark Streaming的核心 1.核心概念 StreamingContext:要初始化Spark Streaming程序,必须创建一个StreamingContext对象,它是所有Spark StreamingContext功能的主要入口点。 一个StreamingContext对象可以由S 阅读全文
posted @ 2019-03-21 14:20 xiaoshiyun 阅读(431) 评论(0) 推荐(0) 编辑

2019年3月20日

摘要: spark Streaming的入门 1.概述 spark streaming 是spark core api的一个扩展,可实现实时数据的可扩展,高吞吐量,容错流处理。 从上图可以看出,数据可以有很多来源,如kafka,flume,Twitter,HDFS/S3,Kinesis用的比较少;这些采集回 阅读全文
posted @ 2019-03-20 14:32 xiaoshiyun 阅读(566) 评论(0) 推荐(0) 编辑

2019年3月19日

摘要: WebServer/ApplicationServer分散在各个机器上,想在大数据平台hadoop上进行统计分析,就需要先把日志收集到hadoop平台上。 思考:如何解决我们的数据从其他的server上移动到Hadoop之上? 脚本shell,用cp拷贝到hadoop集群上,再通过hadoop fs 阅读全文
posted @ 2019-03-19 14:28 xiaoshiyun 阅读(208) 评论(0) 推荐(0) 编辑

2018年7月25日

摘要: 如果不小心删除了了hive的元数据文件(/user/hive/warehouse),只要先前core-site.xml文件中设置了fs.trash.interval属性就可以找回。hdfs会为用户创建一个回收站的目录,通过shell删除的文件会在该回收站中停放一定的时间,最终才被删除。该回收站目录是 阅读全文
posted @ 2018-07-25 09:18 xiaoshiyun 阅读(3148) 评论(0) 推荐(0) 编辑

2018年7月23日

摘要: 在spark集群中执行./spark-shell时报以下错误: 18/07/23 10:02:39 WARN DataNucleus.Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)1 阅读全文
posted @ 2018-07-23 10:36 xiaoshiyun 阅读(2427) 评论(0) 推荐(0) 编辑

2018年7月3日

摘要: 简单的讲,Apache Spark是一个快速且通用的集群计算系统。 Apache Spark 历史: 2009年由加州伯克利大学的AMP实验室开发,并在2010年开源,13年时成长为Apache旗下大数据领域最活跃的开源项目之一。2014年5月底spark1.0.0发布,2016年6月spark2. 阅读全文
posted @ 2018-07-03 15:27 xiaoshiyun 阅读(125) 评论(0) 推荐(0) 编辑
摘要: Hive创表语法 create [external] table [if not exists] [db_name.]table_name (col1_name data_type,col2_name data_type,...) [comment table_comment] [partition 阅读全文
posted @ 2018-07-03 15:25 xiaoshiyun 阅读(111) 评论(0) 推荐(0) 编辑

2018年6月2日

摘要: spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVector向量的生成方法: (1):Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数 阅读全文
posted @ 2018-06-02 16:10 xiaoshiyun 阅读(449) 评论(0) 推荐(0) 编辑

2018年3月7日

摘要: Hive是构建于Hadoop上的数据仓库基础框架,它提供了以下功能: 可通过SQL轻松的访问数据,从而实现数据仓库的任务。如提取/转换/加载,报告和数据分析。 对各种数据格式施加结构。 访问存储在HDFS或是其他数据存储系统上文件。 可使用MapReduce或是Spark作为执行层。 通过Hive 阅读全文
posted @ 2018-03-07 16:28 xiaoshiyun 阅读(214) 评论(0) 推荐(0) 编辑

导航