会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
李晓春
2018年8月6日
【干货】大数据框架整理
摘要: 大数据离线部分 HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据安全
阅读全文
posted @ 2018-08-06 16:49 李晓春
阅读(424)
评论(0)
推荐(0)
且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset
摘要: 最令开发者们高兴的事莫过于有一组API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API,可以方便地通过多种语言,如Scala、Java、Python和R等来操作大数据集。 在本文中,我将深入讲讲
阅读全文
posted @ 2018-08-06 16:31 李晓春
阅读(354)
评论(0)
推荐(0)
理解Spark的核心RDD
摘要: 理解Spark的核心RDD(转) 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计
阅读全文
posted @ 2018-08-06 16:09 李晓春
阅读(278)
评论(0)
推荐(0)
Spark编程入门
摘要: 1. 交互式Spark-Shell 根据前一节已经搭建好的Hadoop和Spark环境,直接通过脚本启动Hadoop和Spark服务。如果 http://localhost:8080 能够访问,说明Spark服务已经启动。Spark为我们提供了PySpark以及Spark-shell,可以方便的通过
阅读全文
posted @ 2018-08-06 15:41 李晓春
阅读(4470)
评论(0)
推荐(0)
Spark新特性(DataFrame/DataSet、Structured Streaming和Spark Session)
摘要: spark 新特性主要增加DataFrame/DataSet、Structured Streaming和Spark Session 1. DataFrame/DataSet主要替换之前的RDD,主要优势在执行效率、集群间通信、执行优化和GC开销比RDD有优势。 2. Structured Strea
阅读全文
posted @ 2018-08-06 15:00 李晓春
阅读(1946)
评论(0)
推荐(0)
Spark:超越Hadoop MapReduce
摘要: 和 hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 本文选自《SparkGraphX实战》。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求
阅读全文
posted @ 2018-08-06 14:52 李晓春
阅读(313)
评论(0)
推荐(0)
导航
博客园
首页
新随笔
联系
订阅
管理
公告