2018 年 8月 6 日随笔档案 - 李晓春

【干货】大数据框架整理

摘要：大数据离线部分 HDFS 1：HDFS的架构部分及工作原理 NameNode：负责管理元素据，将信息保存在内存中 DataNode：保存数据，以块的形式保存。启动后需要定时的向NameNode发送心跳，报告自身存储的块信息 2：HDFS的上传过程 3：HDFS的下载 4：NameNode的元数据安全阅读全文

posted @ 2018-08-06 16:49 李晓春阅读(427) 评论(0) 推荐(0)

且谈Apache Spark的API三剑客：RDD、DataFrame和Dataset

摘要：最令开发者们高兴的事莫过于有一组API，可以大大提高开发者们的工作效率，容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API，可以方便地通过多种语言，如Scala、Java、Python和R等来操作大数据集。在本文中，我将深入讲讲阅读全文

posted @ 2018-08-06 16:31 李晓春阅读(357) 评论(0) 推荐(0)

理解Spark的核心RDD

摘要：理解Spark的核心RDD（转）与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计阅读全文

posted @ 2018-08-06 16:09 李晓春阅读(280) 评论(0) 推荐(0)

Spark编程入门

摘要： 1. 交互式Spark-Shell 根据前一节已经搭建好的Hadoop和Spark环境，直接通过脚本启动Hadoop和Spark服务。如果 http://localhost:8080 能够访问，说明Spark服务已经启动。Spark为我们提供了PySpark以及Spark-shell，可以方便的通过阅读全文

posted @ 2018-08-06 15:41 李晓春阅读(4472) 评论(0) 推荐(0)

Spark新特性（DataFrame/DataSet、Structured Streaming和Spark Session）

摘要： spark 新特性主要增加DataFrame/DataSet、Structured Streaming和Spark Session 1. DataFrame/DataSet主要替换之前的RDD，主要优势在执行效率、集群间通信、执行优化和GC开销比RDD有优势。 2. Structured Strea 阅读全文

posted @ 2018-08-06 15:00 李晓春阅读(1951) 评论(0) 推荐(0)

Spark：超越Hadoop MapReduce

摘要：和 hadoop 一样，Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是，Spark 在集群的内存中保存数据，而 Hadoop 在集群的磁盘中存储数据。本文选自《SparkGraphX实战》。大数据对一些数据科学团队来说是主要的挑战，因为在要求阅读全文

posted @ 2018-08-06 14:52 李晓春阅读(315) 评论(0) 推荐(0)

李晓春

导航

公告