2017年9月26日

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

摘要: SparkR 是一个 R package, 它提供了一个轻量级的前端以从 R 中使用 Apache Spark. 在 Spark 2.2.0 中, SparkR 提供了一个分布式的 data frame, 它实现了像 selection, filtering, aggregation etc 一系列所支持的操作.(dplyr 与 R data frames 相似) ), 除了可用于海量数据上之外. SparkR 还支持使用 MLlib 来进行分布式的 machine learning(机器学习). 阅读全文

posted @ 2017-09-26 19:29 nm-xy 阅读(1602) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN

摘要: GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上, GraphX 通过引入一个新的图形抽象来扩展 Spark RDD :一种具有附加到每个顶点和边缘的属性的定向多重图形。为了支持图形计算,GraphX 公开了一组基本运算符(例如: subgraph ,joinVertices 和 aggregateMessages)以及 Pregel API 的优化变体。此外,GraphX 还包括越来越多的图形算法 和 构建器,以简化图形分析任务。 阅读全文

posted @ 2017-09-26 19:27 nm-xy 阅读(251) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

摘要: Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark SQL 引擎将随着 streaming data 持续到达而增量地持续地运行,并更新最终结果。您可以使用 Scala , Java , Python 或 R 中的 Dataset/DataFrame API 来表示 streaming aggregations (流聚合), event-time windows (事件时间窗口), stream-to-batch joins (流到批处理连接) 等。在同一个 optimized Spark SQL engine (优化的 Spark SQL 引擎)上执行计算。最后,系统通过 checkpointing (检查点) 和 Write Ahead Logs (预写日志)来确保 end-to-end exactly-once (端到端的完全一次性) 容错保证 阅读全文

posted @ 2017-09-26 19:22 nm-xy 阅读(170) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

摘要: Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语言都可以快速的计算.这种统一意味着开发人员能够在基于提供最自然的方式来表达一个给定的 transformation API 之间实现轻松的来回切换不同的 . 该页面所有例子使用的示例数据都包含在 Spark 的发布中, 并且可以使用 spark-shell, pyspark shell, 或者 sparkR shell来运行. 阅读全文

posted @ 2017-09-26 19:13 nm-xy 阅读(1717) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

摘要: Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, join, window 等的高级函数组成的复杂算法处理. 最终, 处理后的数据可以输出到文件系统, 数据库以及实时仪表盘中. 事实上, 你还可以在 data streams(数据流)上使用 机器学习 以及 图形处理 算法. 阅读全文

posted @ 2017-09-26 19:02 nm-xy 阅读(332) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

摘要: 在一个较高的概念上来说,每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨集群节点的元素的集合。RDD 可以从一个 Hadoop 文件系统(或者任何其它 Hadoop 支持的文件系统),或者一个在 driver program(驱动程序)中已存在的 Scala 集合,以及通过 transforming(转换)来创建一个 RDD。用户为了让它在整个并行操作中更高效的重用,也许会让 Spark persist(持久化)一个 RDD 到内存中。最后,RDD 会自动的从节点故障中恢复。 在 Spark 中的第二个抽象是能够用于并行操作的 shared variables(共享变量),默认情况下,当 Spark 的一个函数作为一组不同节点上的任务运行时,它将每一个变量的副本应用到每一个任务的函数中去。有时候,一个变量需要在整个任务中,或者在任务和 driver program(驱动程序)之间来共享。Spark 支持两种类 阅读全文

posted @ 2017-09-26 17:10 nm-xy 阅读(283) 评论(0) 推荐(0) 编辑

2017年9月21日

Apache Spark RDD(Resilient Distributed Datasets)论文

摘要: Apache Spark RDD 的一篇论文,中文版本 阅读全文

posted @ 2017-09-21 16:38 nm-xy 阅读(523) 评论(0) 推荐(0) 编辑

2017年9月20日

Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN

摘要: 本教程提供了如何使用 Spark 的快速入门介绍。首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API, 然后展示如何使用 Java , Scala 和 Python 来编写应用程序。 为了继续阅读本指南, 首先从 Spark 官网 下载 Spark 的发行包。因为我们将不使用 HDFS, 所以你可以下载一个任何 Hadoop 版本的软件包。 阅读全文

posted @ 2017-09-20 14:22 nm-xy 阅读(640) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

摘要: Apache Spark 是一个快速的, 多用途的集群计算系统。 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用 SQL 处理结构化数据处理的 Spark SQL, 用于机器学习的 MLlib, 用于图形处理的 GraphX, 以及 Spark Streaming。 阅读全文

posted @ 2017-09-20 14:19 nm-xy 阅读(411) 评论(0) 推荐(0) 编辑

2017年9月12日

【机器学习实战】第10章 K-Means(K-均值)聚类算法

摘要: K-均值是发现给定数据集的k个簇的算法。 阅读全文

posted @ 2017-09-12 18:07 nm-xy 阅读(967) 评论(0) 推荐(1) 编辑

导航