XGogo - 博客园

2016年9月29日

摘要：转自：https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spark%E5%86%85%E5%AD%98%E6%A6%82%E8%BF%B0.md 1.5以前 spark进程是以JVM进程运行的，可以通过-Xmx和-Xms 阅读全文

posted @ 2016-09-29 18:16 XGogo 阅读(1902) 评论(0) 推荐(0)

Spark Streaming使用Kafka保证数据零丢失

摘要：来自： https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了数据的零丢失，想享受这个特性，需要满足如下条件：数据输入需要可靠的sources和可靠的recei 阅读全文

posted @ 2016-09-29 17:58 XGogo 阅读(569) 评论(0) 推荐(0)

SparkStreaming操作Kafka

摘要： Kafka为一个分布式的消息队列，spark流操作kafka有两种方式：一种是利用接收器（receiver）和kafaka的高层API实现。一种是不利用接收器，直接用kafka底层的API来实现（spark1.3以后引入）。 Receiver方式基于Receiver方式实现会利用Kakfa的高阅读全文

posted @ 2016-09-29 16:37 XGogo 阅读(9227) 评论(3) 推荐(0)

DirectStream、Stream的区别-SparkStreaming源码分析02

摘要：转http://hadoop1989.com/2016/03/15/KafkaStreaming/ 在Spark1.3之前，默认的Spark接收Kafka数据的方式是基于Receiver的，在这之后的版本里，推出了Direct Approach，现在整理一下两种方式的异同。 1. Receiver- 阅读全文

posted @ 2016-09-29 10:02 XGogo 阅读(1960) 评论(0) 推荐(0)

Spark参数配置

摘要：转自：http://hadoop1989.com/2015/10/08/Spark-Configuration/ 一、Spark参数设置二、查看Spark参数设置三、Spark参数分类四、Spark性能相关参数一、Spark参数设置 Spark配置参数，一共有三种方法， 1、在程序中，直接阅读全文

posted @ 2016-09-29 10:01 XGogo 阅读(3418) 评论(0) 推荐(0)

2016年9月9日

HBase 系统架构

摘要： HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型。它存储的是松散型数据。 HBase特性： 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC 阅读全文

posted @ 2016-09-09 15:43 XGogo 阅读(945) 评论(0) 推荐(0)

关于Parse字符串为时间一次被坑经历

摘要：在Java代码中发现一个bug，就是本来更新为时间的内容更新为一些奇怪的内容，比如20819这种形式，本来更新的时间都是近期不会超过一年，为什么会出现这种情况，非常奇怪，遂调试下代码，跟踪发现要匹配的字符串内容和预想的日期格式不符合，代码处理这种情况是抛出异常，然后用今天的日期替代，结果没成功，阅读全文

posted @ 2016-09-09 09:55 XGogo 阅读(1895) 评论(0) 推荐(0)

2016年9月8日

Spark操作Hbase

摘要： Spark 下操作 HBase（1.0.0 新 API） HBase经过七年发展，终于在今年2月底，发布了 1.0.0 版本。这个版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地来熟悉下新版API。并且了解下如何阅读全文

posted @ 2016-09-08 22:03 XGogo 阅读(3131) 评论(0) 推荐(0)

2016年9月1日

spark结构化数据处理：Spark SQL、DataFrame和Dataset

摘要：本文讲解Spark的结构化数据处理，主要包括：Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东，但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际，并且Spark 2.0的预览版本阅读全文

posted @ 2016-09-01 22:58 XGogo 阅读(10599) 评论(1) 推荐(0)

Spark踩坑记——数据库（Hbase+Mysql）转

摘要：转自：http://www.cnblogs.com/xlturing/p/spark.html 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时，我们往往需要操作数据库，去统计或者改变一些值。最近一个实时消费者处理任务，在使用spark streaming进行实时的数阅读全文

posted @ 2016-09-01 10:04 XGogo 阅读(3605) 评论(0) 推荐(0)

尧字节

明翼

公告