XGogo - 博客园

2017年5月24日

摘要：终于又切回HBase模式了，之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件（诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等），虽然只是走马观花，但也受益良多。对视野、思维模式都有极其重要的作用，至少，扩展了大数据领域的对话圈。阅读全文

posted @ 2017-05-24 12:09 XGogo 阅读(330) 评论(0) 推荐(0)

2017年5月16日

HBase scan setBatch和setCaching的区别【转】

摘要：转自：http://blog.csdn.net/caoli98033/article/details/44650497 HBase的查询实现只提供两种方式：1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get） 2、按指定的条件获取阅读全文

posted @ 2017-05-16 16:13 XGogo 阅读(4046) 评论(0) 推荐(0)

2017年5月14日

Spark SQL编程指南（Python）【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD：SchemaRDD。 SchemaRDD类似于传统关系型数阅读全文

posted @ 2017-05-14 15:21 XGogo 阅读(559) 评论(0) 推荐(0)

Spark(Hive) SQL中UDF的使用（Python）【转】

摘要：相对于使用MapReduce或者Spark Application的方式进行数据分析，使用Hive SQL或Spark SQL能为我们省去不少的代码工作量，而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具，当这些内置的UDF不能满足于我们的需要时，Hi 阅读全文

posted @ 2017-05-14 15:15 XGogo 阅读(1671) 评论(0) 推荐(0)

Spark SQL inferSchema实现原理探微（Python）【转】

摘要：使用Spark SQL的基础是“注册”（Register）若干表，表的一个重要组成部分就是模式，Spark SQL提供两种选项供用户选择：（1）applySchema applySchema的方式需要用户编码显示指定模式，优点：数据类型明确，缺点：多表时有一定的代码工作量。（2）inferSch 阅读全文

posted @ 2017-05-14 15:14 XGogo 阅读(805) 评论(0) 推荐(0)

Spark SQL利器：cacheTable/uncacheTable【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/4936583.html Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一阅读全文

posted @ 2017-05-14 15:12 XGogo 阅读(1199) 评论(0) 推荐(0)

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDF 阅读全文

posted @ 2017-05-14 15:08 XGogo 阅读(800) 评论(0) 推荐(0)

2017年5月12日

ExecutorService-10个要诀和技巧【转】

摘要： http://ifeve.com/executorservice-10-tips-and-tricks/ 阅读全文

posted @ 2017-05-12 18:43 XGogo 阅读(218) 评论(0) 推荐(0)

2017年5月8日

漫游Kafka之过期数据清理【转】

摘要：转自：http://blog.csdn.net/honglei915/article/details/49683065 Kafka将数据持久化到了硬盘上，允许你配置一定的策略对数据清理，清理的策略有两个，删除和压缩。数据清理的方式删除 log.cleanup.policy=delete启用删除策阅读全文

posted @ 2017-05-08 10:47 XGogo 阅读(863) 评论(0) 推荐(0)

kafka多线程消费及处理和手动提交处理方案设计[转]

摘要：转自：http://blog.csdn.net/haoyifen/article/details/54692503 kafka与其他消息队列不同的是, kafka的消费者状态由外部( 消费者本身或者类似于Zookeeper之类的外部存储 )进行维护, 所以kafka的消费就更加灵活, 但是也带来了很阅读全文

posted @ 2017-05-08 10:47 XGogo 阅读(5551) 评论(0) 推荐(0)

尧字节

明翼

公告