上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 44 下一页
摘要: 一、概述 1.logstash是什么 根据官网介绍: Logstash 是开源的服务器端数据处理管道,能够同时 从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。(我们的存储库当然是 Elasticsearch。) //属于elasticsearch旗下产品(JRuby开发, 阅读全文
posted @ 2018-04-18 14:45 ---江北 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull 一、spark streaming整合flume 1.push的方式 更推荐的是pull的拉取方式 阅读全文
posted @ 2018-04-16 16:43 ---江北 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.什么是spark streaming Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processi 阅读全文
posted @ 2018-04-15 17:54 ---江北 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 一、SparkSQL结合hive 1.首先通过官网查看与hive匹配的版本 这里可以看到是1.2.1 2.与hive结合 spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过sparksql与hive结合实现数据分析将成为一 阅读全文
posted @ 2018-04-08 17:54 ---江北 阅读(832) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.什么是sparkSQL 根据官网的解释: Spark SQL is a Spark module for structured data processing. 也就是说,sparkSQL是一个处理结构化数据的组件 更多的介绍,可以参见官网或者w3c:https://www.w3csc 阅读全文
posted @ 2018-04-08 17:02 ---江北 阅读(778) 评论(0) 推荐(1) 编辑
摘要: 一、概述 1.kettle是什么 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 更多介绍,参考kettle中文网 阅读全文
posted @ 2018-04-04 16:12 ---江北 阅读(2080) 评论(1) 推荐(0) 编辑
摘要: 一、JdbcRDD与关系型数据库交互 虽然略显鸡肋,但这里还是记录一下(点开JdbcRDD可以看到限制比较死,基本是鸡肋。但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互。这点和Hadoop需要借助sqoop等工具进行是有优势的!) 给出一个demo的参考链接:https: 阅读全文
posted @ 2018-04-04 11:24 ---江北 阅读(321) 评论(2) 推荐(0) 编辑
摘要: 一、自定义分区 1.概述 默认的是Hash的分区策略,这点和Hadoop是类似的,具体的分区介绍,参见:https://blog.csdn.net/high2011/article/details/68491115 2.实现 // 与Hadoop相通,不再赘述 二、自定义排序 基本上就是结合之前的隐 阅读全文
posted @ 2018-04-03 15:33 ---江北 阅读(1050) 评论(0) 推荐(0) 编辑
摘要: 一、RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时 阅读全文
posted @ 2018-04-01 16:24 ---江北 阅读(973) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for large-scale data processing. 主要的特性有: Speed:快如闪电(HADOOP 阅读全文
posted @ 2018-03-31 21:05 ---江北 阅读(486) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 44 下一页
TOP