摘要: 一、Spark生态简介 官网: http://spark.apache.org/ Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系 阅读全文
posted @ 2018-06-15 15:26 爱寂寞撒的谎言 阅读(734) 评论(0) 推荐(0)
摘要: 一、什么是JdbcRDD 下面一段话来源于package org.apache.spark.rdd.JdbcRDD的源码: 简单来说就是可以在一个connection上执行SQL并且获取返回值的RDD。 二、JdbcRDD的使用 使用JdbcRDD执行SQL查询MySQL数据库并且打印结果: 执行的 阅读全文
posted @ 2018-06-15 11:17 爱寂寞撒的谎言 阅读(459) 评论(0) 推荐(0)
摘要: 一、读取日志格式 使用的测试数据是Tomcat的访问日志,日志格式如下 192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30/Jul/2017:12:5 阅读全文
posted @ 2018-06-15 10:42 爱寂寞撒的谎言 阅读(818) 评论(0) 推荐(0)