nxf_rabbit75 - 博客园

2019年12月15日

摘要：一、机器学习工作流概念 1.DataFrame 使用Spark SQL中的DataFrame作为数据集，它可以容纳各种数据类型。较之RDD，DataFrame包含了schema 信息，更类似传统数据库中的二维表格。它被ML Pipeline用来存储源数据。例如，DataFrame中的列可以是存储的阅读全文

posted @ 2019-12-15 16:33 nxf_rabbit75 阅读(1100) 评论(0) 推荐(0)

2019年12月14日

8.1 Spark MLlib简介

摘要：一、什么是机器学习机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。机器学习强调三个关键词：算法、经验、性能二、基于大数据的机器学习（1）map-reduce （2）Spark 三、Spark 机器学习库MLli 阅读全文

posted @ 2019-12-14 21:50 nxf_rabbit75 阅读(351) 评论(0) 推荐(0)

7.8 Structured Streaming

摘要：一、Spark流计算组件的演进二、Structured Streaming的基本原理 Structured Streaming将数据建模成一个结构化的数据表DataFrame，后到达的数据就是一条一条的记录不断往里追加。三、为什么设计Structured Streaming 1.重新抽象了流失计阅读全文

posted @ 2019-12-14 21:43 nxf_rabbit75 阅读(196) 评论(0) 推荐(0)

7.7 输出操作

摘要：在Spark应用中，外部系统经常需要使用到Spark DStream处理后的数据，因此，需要采用输出操作把DStream的数据输出到数据库或者文件系统中。一、把DStream输出到文本文件中请在NetworkWordCountStateful.scala代码文件中输入以下内容： package 阅读全文

posted @ 2019-12-14 21:13 nxf_rabbit75 阅读(196) 评论(0) 推荐(0)

2019年12月12日

7.6 转换操作

摘要：一、DStream无状态转换操作无状态转换操作：之前“套接字流”部分介绍的词频统计，就是采用无状态转换，每次统计，都是只统计当前批次到达的单词的词频，和之前批次无关，不会进行累计。 1.map(func) 对源DStream的每个元素，采用func函数进行转换，得到一个新的Dstream。 2.f 阅读全文

posted @ 2019-12-12 23:35 nxf_rabbit75 阅读(259) 评论(0) 推荐(0)

7.5 高级数据源---Kafka

摘要：一、Kafka简介 Kafka是一种高吞吐量的分布式发布订阅消息系统，用户通过Kafka系统可以发布大量的消息，同时也能实时订阅消费消息。Kafka可以同时满足在线实时处理和批量离线处理。在公司的大数据生态系统中，可以把Kafka作为数据交换枢纽，不同类型的分布式系统（关系数据库、NoSQL数据库阅读全文

posted @ 2019-12-12 11:57 nxf_rabbit75 阅读(682) 评论(0) 推荐(0)

2019年12月11日

7.4 基本输入源

摘要：一、文件流 1.在spark-shell中创建文件流进入spark-shell创建文件流。另外打开一个终端窗口，启动进入spark-shell 上面在spark-shell中执行的程序，一旦你输入ssc.start()以后，程序就开始自动进入循环监听状态，屏幕上会显示一堆的信息，如下：在“/us 阅读全文

posted @ 2019-12-11 21:03 nxf_rabbit75 阅读(564) 评论(0) 推荐(0)

7.3 DStream操作

摘要：一、Spark Streaming工作机制在Spark Streaming中，会有一个组件Receiver，作为一个长期运行的task跑在一个Executor上；每个Receiver都会负责一个input DStream（比如从文件中读取数据的文件流，比如套接字流，或者从Kafka中读取的一个输阅读全文

posted @ 2019-12-11 17:09 nxf_rabbit75 阅读(321) 评论(0) 推荐(0)

7.2 Spark Streaming

摘要：一、Spark Streaming设计 Spark Streaming可整合多种输入数据源，如Kafka、Flume、HDFS，甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库，或显示在仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片（秒级）为单位进行拆阅读全文

posted @ 2019-12-11 17:05 nxf_rabbit75 阅读(470) 评论(0) 推荐(0)

7.1 流计算概述

摘要：一、静态数据和流数据很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP（On-Line Analytical Processing）分析工具从静态数据中找到对企业有价值的信息。近年来，在Web应用、网络监控、传感监测等领域，兴起了阅读全文

posted @ 2019-12-11 15:36 nxf_rabbit75 阅读(1273) 评论(0) 推荐(0)