2018年8月6日

摘要: 大数据离线部分 HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据安全 阅读全文
posted @ 2018-08-06 16:49 李晓春 阅读(424) 评论(0) 推荐(0)
摘要: 最令开发者们高兴的事莫过于有一组API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API,可以方便地通过多种语言,如Scala、Java、Python和R等来操作大数据集。 在本文中,我将深入讲讲 阅读全文
posted @ 2018-08-06 16:31 李晓春 阅读(354) 评论(0) 推荐(0)
摘要: 理解Spark的核心RDD(转) 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计 阅读全文
posted @ 2018-08-06 16:09 李晓春 阅读(278) 评论(0) 推荐(0)
摘要: 1. 交互式Spark-Shell 根据前一节已经搭建好的Hadoop和Spark环境,直接通过脚本启动Hadoop和Spark服务。如果 http://localhost:8080 能够访问,说明Spark服务已经启动。Spark为我们提供了PySpark以及Spark-shell,可以方便的通过 阅读全文
posted @ 2018-08-06 15:41 李晓春 阅读(4470) 评论(0) 推荐(0)
摘要: spark 新特性主要增加DataFrame/DataSet、Structured Streaming和Spark Session 1. DataFrame/DataSet主要替换之前的RDD,主要优势在执行效率、集群间通信、执行优化和GC开销比RDD有优势。 2. Structured Strea 阅读全文
posted @ 2018-08-06 15:00 李晓春 阅读(1946) 评论(0) 推荐(0)
摘要: 和 hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 本文选自《SparkGraphX实战》。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求 阅读全文
posted @ 2018-08-06 14:52 李晓春 阅读(313) 评论(0) 推荐(0)

导航