12 2018 档案
摘要:一、简介 并发编程中我们经常创建异步线程来执行任务。但是,当异步任务之间存在依赖关系时,使得我们开发过程变得更加复杂。比如: 1、线程2依赖于线程1的执行结果 2、线程3依赖于线程1和线程2执行结果的合并 要实现以上两个异步线程的依赖,我们可能会采用等待/通知、消费队列或者一些比较麻烦的逻辑来控制异
阅读全文
摘要:一、简介 在hadoop的分布式计算框架MapReduce中,会经过两个过程Map过程和reduce过程。Map过程将任务并行计算,reduce汇总并行计算的结果,如图: MapReduce是在分布式环境中做分布式计算的,JDK1.7+以后再单机环境中也可以做类似的操作,它提供了一种ForkJoin
阅读全文
摘要:一、简介 默认的异步任务有些难以控制,有时候我们希望在当前线程获取异步任务的结果。FutureTask可以帮助我们实现 JDK文档:http://tool.oschina.net/uploads/apidocs/jdk-zh/java/util/concurrent/FutureTask.html
阅读全文
摘要:一、简介 在Java多线程中,我们要实现同步串行最早接触的就是synchronized关键字。 基本语法如下: sychronized关键字的锁主要有三种使用: 1)对象锁 2)类锁 3)字符串锁 二、示例 一、对象锁 最常见的写法,synchronized写在了成员方法上,这表示它以this为锁,
阅读全文
摘要:一、简介 1、操作系统 在早起的裸机时代,计算机非常地昂贵,而且也没有操作系统的概念,计算机从头到尾只能执行一个程序。如果程序在执行一个耗时的操作,那么在这个过程中,计算机就有大量的资源闲置在那里,这是非常浪费的。 而这个时候,操作系统的概念被提出了。在操作系统的控制下,一个计算机可以执行很多的程序
阅读全文
摘要:简介 spark MLlib官网:http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的算法库,包含了丰富的机器学习的一系列算法。你可以通过简单的API来构建算法模型,然后利用模型来进行预测分析推荐之类的。 它包含了
阅读全文
摘要:简介 spark SQL官网:http://spark.apache.org/docs/latest/sql-programming-guide.html sparkSQL是构建在sparkCore之上的组件,用于处理结构化的数据。它将数据抽象为DataFrame并提供丰富的API,并且sparkS
阅读全文
摘要:简介 spark graphx官网:http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview spark graphx是基于spark core之上的一个图计算组件,graphx扩展了spark RDD,是s
阅读全文
摘要:简介 sparkStream官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview sparkStream是构建在spark core之上的实时流处理框架,它支持很多的数据源,如: 你可以从ka
阅读全文
摘要:本文将简单搭建一个spark的开发环境,如下: 1)操作系统:window os 2)IDEA开发工具以及scala插件(IDEA和插件版本要对应): 2-1)IDEA2018.2.1:https://www.jetbrains.com/ 2-2)scala-intellij-bin-2018.2.
阅读全文
摘要:简介 spark RDD操作具体参考官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html#overview RDD全称叫做Resilient Distributed Datasets,直译为弹性分布式数据集,是spark中
阅读全文
摘要:简介 spark的yarn运行模式根据Driver在集群中的位置分成两种: 1)yarn-client 客户端模式 2)yarn-cluster 集群模式 yarn模式和standalone模式不同,standalone模式需要启动spark独立集群,这样SparkContext才能与Master进
阅读全文
摘要:在上文中我们知道spark的集群主要有三种运行模式standalone、yarn、mesos,其中常被使用的是standalone和yarn,本文了解一下什么是standalone运行模式,它的运行流程是怎么样的。 简介 standalone模式,是spark自己实现的,它是一个资源调度框架。这里我
阅读全文
摘要:spark集群架构官方文档:http://spark.apache.org/docs/latest/cluster-overview.html 集群架构 我们先看这张图 这张图把spark架构拆分成了两块内容: 1)spark应用程序:即左边的DriverProgram这块; 2)spark 集群:
阅读全文
摘要:一、简介 spark的官网:http://spark.apache.org/ spark解决了什么问题? 我们都知道hadoop,hadoop以一个非常容易使用的编程模型解决了大数据的两大难题: 1)分布式存储hdfs; 2)分布式计算mapReduce; 但是hadoop也存在着一些问题,最主要的
阅读全文
浙公网安备 33010602011771号