xiaoshiyun

Hive与HBase表联合使用Join的问题

摘要： hive与hbase表结合级联查询的问题，主要hive两个表以上涉及到join操作，就会长时间卡住，查询日志也不报错，也不会出现mr的进度百分比显示，shell显示如下图如图：解决这个问题，需要修改配置hive-site.xml,添加如下配置：阅读全文

posted @ 2019-04-03 15:06 xiaoshiyun 阅读(532) 评论(0) 推荐(0) 编辑

学习笔记：Spark Streaming的核心

摘要： Spark Streaming的核心 1.核心概念 StreamingContext：要初始化Spark Streaming程序，必须创建一个StreamingContext对象，它是所有Spark StreamingContext功能的主要入口点。一个StreamingContext对象可以由S 阅读全文

posted @ 2019-03-21 14:20 xiaoshiyun 阅读(431) 评论(0) 推荐(0) 编辑

学习笔记：spark Streaming的入门

摘要： spark Streaming的入门 1.概述 spark streaming 是spark core api的一个扩展，可实现实时数据的可扩展，高吞吐量，容错流处理。从上图可以看出，数据可以有很多来源，如kafka,flume,Twitter,HDFS/S3,Kinesis用的比较少；这些采集回阅读全文

posted @ 2019-03-20 14:32 xiaoshiyun 阅读(566) 评论(0) 推荐(0) 编辑

学习笔记：分布式日志收集框架Flume

摘要： WebServer/ApplicationServer分散在各个机器上，想在大数据平台hadoop上进行统计分析，就需要先把日志收集到hadoop平台上。思考：如何解决我们的数据从其他的server上移动到Hadoop之上？脚本shell，用cp拷贝到hadoop集群上，再通过hadoop fs 阅读全文

posted @ 2019-03-19 14:28 xiaoshiyun 阅读(208) 评论(0) 推荐(0) 编辑

Hive元数据找回

摘要：如果不小心删除了了hive的元数据文件（/user/hive/warehouse），只要先前core-site.xml文件中设置了fs.trash.interval属性就可以找回。hdfs会为用户创建一个回收站的目录，通过shell删除的文件会在该回收站中停放一定的时间，最终才被删除。该回收站目录是阅读全文

posted @ 2018-07-25 09:18 xiaoshiyun 阅读(3148) 评论(0) 推荐(0) 编辑

使用spark访问hive错误记录

摘要：在spark集群中执行./spark-shell时报以下错误： 18/07/23 10:02:39 WARN DataNucleus.Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)1 阅读全文

posted @ 2018-07-23 10:36 xiaoshiyun 阅读(2427) 评论(0) 推荐(0) 编辑

spark学习笔记_1

摘要：简单的讲，Apache Spark是一个快速且通用的集群计算系统。 Apache Spark 历史： 2009年由加州伯克利大学的AMP实验室开发，并在2010年开源，13年时成长为Apache旗下大数据领域最活跃的开源项目之一。2014年5月底spark1.0.0发布，2016年6月spark2. 阅读全文

posted @ 2018-07-03 15:27 xiaoshiyun 阅读(125) 评论(0) 推荐(0) 编辑

HQL知识点一

摘要： Hive创表语法 create [external] table [if not exists] [db_name.]table_name (col1_name data_type,col2_name data_type,...) [comment table_comment] [partition 阅读全文

posted @ 2018-07-03 15:25 xiaoshiyun 阅读(111) 评论(0) 推荐(0) 编辑

Spark的mlib中的稠密向量和稀疏向量

摘要： spark mlib中2种局部向量：denseVector（稠密向量）和sparseVector（稀疏向量） denseVector向量的生成方法：Vector.dense() sparseVector向量的生成方法：（1）：Vector.sparse(向量长度，索引数组，与索引数组所对应的数值数阅读全文

posted @ 2018-06-02 16:10 xiaoshiyun 阅读(449) 评论(0) 推荐(0) 编辑

Hive的初识

摘要： Hive是构建于Hadoop上的数据仓库基础框架，它提供了以下功能：可通过SQL轻松的访问数据，从而实现数据仓库的任务。如提取/转换/加载，报告和数据分析。对各种数据格式施加结构。访问存储在HDFS或是其他数据存储系统上文件。可使用MapReduce或是Spark作为执行层。通过Hive 阅读全文

posted @ 2018-03-07 16:28 xiaoshiyun 阅读(214) 评论(0) 推荐(0) 编辑

公告

导航