上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 56 下一页
摘要: 一、机器学习工作流概念 1.DataFrame 使用Spark SQL中的DataFrame作为数据集,它可以容纳各种数据类型。较之RDD,DataFrame包含了schema 信息,更类似传统数据库中的二维表格。 它被ML Pipeline用来存储源数据。例如,DataFrame中的列可以是存储的 阅读全文
posted @ 2019-12-15 16:33 nxf_rabbit75 阅读(1095) 评论(0) 推荐(0)
摘要: 一、什么是机器学习 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。 机器学习强调三个关键词:算法、经验、性能 二、基于大数据的机器学习 (1)map-reduce (2)Spark 三、Spark 机器学习库MLli 阅读全文
posted @ 2019-12-14 21:50 nxf_rabbit75 阅读(347) 评论(0) 推荐(0)
摘要: 一、Spark流计算组件的演进 二、Structured Streaming的基本原理 Structured Streaming将数据建模成一个结构化的数据表DataFrame,后到达的数据就是一条一条的记录不断往里追加。 三、为什么设计Structured Streaming 1.重新抽象了流失计 阅读全文
posted @ 2019-12-14 21:43 nxf_rabbit75 阅读(193) 评论(0) 推荐(0)
摘要: 在Spark应用中,外部系统经常需要使用到Spark DStream处理后的数据,因此,需要采用输出操作把DStream的数据输出到数据库或者文件系统中。 一、把DStream输出到文本文件中 请在NetworkWordCountStateful.scala代码文件中输入以下内容: package 阅读全文
posted @ 2019-12-14 21:13 nxf_rabbit75 阅读(196) 评论(0) 推荐(0)
摘要: 一、DStream无状态转换操作 无状态转换操作:之前“套接字流”部分介绍的词频统计,就是采用无状态转换,每次统计,都是只统计当前批次到达的单词的词频,和之前批次无关,不会进行累计。 1.map(func) 对源DStream的每个元素,采用func函数进行转换,得到一个新的Dstream。 2.f 阅读全文
posted @ 2019-12-12 23:35 nxf_rabbit75 阅读(259) 评论(0) 推荐(0)
摘要: 一、Kafka简介 Kafka是一种高吞吐量的分布式发布订阅消息系统,用户通过Kafka系统可以发布大量的消息,同时也能实时订阅消费消息。Kafka可以同时满足在线实时处理和批量离线处理。 在公司的大数据生态系统中,可以把Kafka作为数据交换枢纽,不同类型的分布式系统(关系数据库、NoSQL数据库 阅读全文
posted @ 2019-12-12 11:57 nxf_rabbit75 阅读(678) 评论(0) 推荐(0)
摘要: 一、文件流 1.在spark-shell中创建文件流 进入spark-shell创建文件流。另外打开一个终端窗口,启动进入spark-shell 上面在spark-shell中执行的程序,一旦你输入ssc.start()以后,程序就开始自动进入循环监听状态,屏幕上会显示一堆的信息,如下: 在“/us 阅读全文
posted @ 2019-12-11 21:03 nxf_rabbit75 阅读(563) 评论(0) 推荐(0)
摘要: 一、Spark Streaming工作机制 在Spark Streaming中,会有一个组件Receiver,作为一个长期运行的task跑在一个Executor上; 每个Receiver都会负责一个input DStream(比如从文件中读取数据的文件流,比如套接字流,或者从Kafka中读取的一个输 阅读全文
posted @ 2019-12-11 17:09 nxf_rabbit75 阅读(321) 评论(0) 推荐(0)
摘要: 一、Spark Streaming设计 Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆 阅读全文
posted @ 2019-12-11 17:05 nxf_rabbit75 阅读(470) 评论(0) 推荐(0)
摘要: 一、静态数据和流数据 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。 近年来,在Web应用、网络监控、传感监测等领域,兴起了 阅读全文
posted @ 2019-12-11 15:36 nxf_rabbit75 阅读(1268) 评论(0) 推荐(0)
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 56 下一页