随笔分类 -  Spark

摘要:1. Param Spark ML使用一个自定义的Map(ParmaMap类型),其实该类内部使用了mutable.Map容器来存储数据。 如下所示其定义: Class ParamMap private[ml] (private val map.mutable.Map[Param[Any],Any] 阅读全文
posted @ 2017-09-07 21:12 xiuneng 阅读(2285) 评论(0) 推荐(0)
摘要:1. 概述 1.1 功能 MLlib是Spark的机器学习(machine learing)库,其目标是使得机器学习的使用更加方便和简单,其具有如下功能: ML算法:常用的学习算法,包括分类、回归、聚类和过滤; 特征:特征萃取、转换、降维和选取; Pipelines:其是一个工具,目标是用于构建、测 阅读全文
posted @ 2017-09-07 20:51 xiuneng 阅读(2682) 评论(0) 推荐(0)
摘要:Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery 在调用DataStreamWriter方法的start启动Streamin 阅读全文
posted @ 2017-09-03 20:16 xiuneng 阅读(660) 评论(0) 推荐(0)
摘要:1. 结构 1.1 概述 Structured Streaming组件滑动窗口功能由三个参数决定其功能:窗口时间、滑动步长和触发时间. 窗口时间:是指确定数据操作的长度; 滑动步长:是指窗口每次向前移动的时间长度; 触发时间:是指Structured Streaming将数据写入外部DataStre 阅读全文
posted @ 2017-09-03 20:08 xiuneng 阅读(4722) 评论(0) 推荐(0)
摘要:Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. Fil 阅读全文
posted @ 2017-09-03 19:58 xiuneng 阅读(4436) 评论(0) 推荐(0)
摘要:Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket Socket方式是最简单的数据输入源,如Quick example所示的程序,就是使用的这种方式。用户只需要指定"socket"形式并配置监听的IP和Por 阅读全文
posted @ 2017-09-03 19:43 xiuneng 阅读(4832) 评论(0) 推荐(0)
摘要:Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍,其为"StructuredNetw 阅读全文
posted @ 2017-09-03 19:30 xiuneng 阅读(2140) 评论(0) 推荐(0)
摘要:1. 理论基础 1. 理论基础 由于数据挖掘所有数据都要以数字形式存在,而文本是以字符串形式存在。所以进行文本挖掘时需要先对字符串进行数字化,从而能够进行计算。TF-IDF就是这样一种技术,能够将字符串转换为数字,从而能够进行数据计算。 TF-IDF(term frequency–inverse d 阅读全文
posted @ 2017-08-23 21:47 xiuneng 阅读(10068) 评论(0) 推荐(1)