文章分类 -  Spark

摘要:Spark2.x管理与开发-Spark GraphX-【运行图计算程序】 对点、边操作 Scala代码: package sparkGraphX import org.apache.spark.SparkConf import org.apache.spark.SparkContext import 阅读全文

posted @ 2020-08-13 17:48 MissRong 阅读(133) 评论(0) 推荐(0) |

摘要:Spark2.x管理与开发-Spark GraphX-什么是Spark GraphX+Spark GraphX有哪些抽象 一、什么是Spark GraphX 1)Spark GraphX是Saprk的一个模块,主要用于进行以图为核心的计算和分布式计算。 2)GraphX底层计算也是RDD计算,他和R 阅读全文

posted @ 2020-08-13 17:40 MissRong 阅读(158) 评论(0) 推荐(0) |

摘要:Spark2.x管理与开发-Spark MLlib-【线性回归】+余弦的相似性 一、线性回归 1.运行一下官方提供的线性回归 里面存放的就是Spark官方提供的样例数据: 讲解下格式: 运行一下官方提供的线性回归: [root@bigdata111 spark-2.1.0-bin-hadoop2.7 阅读全文

posted @ 2020-08-13 17:35 MissRong 阅读(238) 评论(0) 推荐(0) |

摘要:Spark2.x管理与开发-Spark MLlib-什么是机器学习 1、机器学习定义 机器学习可以看做是一门人工智能的科学 利用数据或者以往经验,以此优化计算机程序的性能标准。 A computer program is said to learn from experience E with re 阅读全文

posted @ 2020-08-13 17:24 MissRong 阅读(116) 评论(0) 推荐(0) |

摘要:Spark2.x管理与开发-Spark MLlib-MLlib概述 MLlib是Spark的可以扩展的机器学习库 MLlib概述 Spark在机器学习有得天独厚的优势 double wucha = 1.0 while(wucha >= 0.1){ 建模 wucha -= 某个值 } (1)机器学习算 阅读全文

posted @ 2020-08-13 17:21 MissRong 阅读(197) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-性能优化(七)其他调优 广播共享数据 将经常用到的数据都广播出去来达到优化的目的 阅读全文

posted @ 2020-08-11 12:12 MissRong 阅读(83) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-性能优化(六)Shuffle 注意:Spark2.x中,shuffle调优官方已经完成,在Spark1.x中,会有此问题 中间产生的文件个数:就是CPU的核数*ReduceTask的数量 阅读全文

posted @ 2020-08-11 12:08 MissRong 阅读(139) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-性能优化(五)Java虚拟机调优 1.背景 在做虚拟机调优之前,必须先做好:使用高性能的序列化类库、优化数据结构的调优工作,这样才有意义。 如果在计算的时候引入大量数据,那么java虚拟机的垃圾回收就可能成为性能瓶颈。 Java虚拟机会定 阅读全文

posted @ 2020-08-11 12:05 MissRong 阅读(149) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-性能优化(四)优化数据结构 1.概述 要减少内存的消耗,除了使用高性能的序列化类库外,还有一个很重要的事情,就是优化数据结构。 避免语法特性中所导致的额外的内存开销。 核心:优化算子函数内部使用到的局部数据或算子函数外部的数据。 目的:减 阅读全文

posted @ 2020-08-11 11:55 MissRong 阅读(80) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-性能优化(三)使用高性能序列化类库 1.数据序列化概述 数据序列化就是将对象或者数据结构转换成特定的格式,使其可以在网络中传输,或者可以存在内存或文件中。 反序列化则是相反的操作,将对象从序列化的数据中还原出来。 数据序列化后的数据格式, 阅读全文

posted @ 2020-08-10 17:56 MissRong 阅读(135) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-性能优化(二)诊断Spark内存使用 首先需要看到内存使用情况,才能进行针对性优化 1. 内存花费: 1)每个Java对象,都有一个对象头,占16个字节,主要包含对象的元信息,比如说类的指针。 如果这个对象本身很小,他的对象头可能比实际的 阅读全文

posted @ 2020-08-10 17:50 MissRong 阅读(198) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-08-10 17:44 MissRong 阅读(0) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-08-10 17:28 MissRong 阅读(0) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-08-10 16:10 MissRong 阅读(0) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶( 八) 一、缓存/持久化 与RDD类似,DStreams还允许开发人员将流数据保留在内存中。 也就是说,在DStream上调用persist() 方法会自动将该DStream的每个RDD保留在内存中。 阅读全文

posted @ 2020-08-10 15:50 MissRong 阅读(134) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(七)【DStreams的输出操作】 输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。 因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。 目前 阅读全文

posted @ 2020-08-10 15:19 MissRong 阅读(153) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(六)【输入DStreams和接收器】 输入DStreams表示从数据源获取输入数据流的DStreams。 在NetworkWordCount例子中,lines表示输入DStream,它代表从netcat 阅读全文

posted @ 2020-08-10 11:50 MissRong 阅读(101) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(五)【DataFrame和SQL操作】 我们可以很方便地使用DataFrames和SQL操作来处理流数据。 您必须使用当前的StreamingContext对应的SparkContext创建一个Spar 阅读全文

posted @ 2020-08-06 23:32 MissRong 阅读(202) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(四)【窗口操作】 Spark Streaming还提供了窗口计算功能,允许您在数据的滑动窗口上应用转换操作。 下图说明了滑动窗口的工作方式: 如图所示,每当窗口滑过originalDStream时,落在 阅读全文

posted @ 2020-08-06 23:17 MissRong 阅读(311) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(三)【DStream中的转换操作(transformation+updateStateByKey)】 最后两个transformation算子需要重点介绍一下: 一、transform(func) 通过 阅读全文

posted @ 2020-08-06 17:14 MissRong 阅读(173) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3