2016年1月19日

Spark学习之基于MLlib的机器学习

摘要: Spark学习之基于MLlib的机器学习1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定。2. MLlib完成文本分类任务步骤:(1)首先用字符串RDD来表示你的消息(2)运行MLlib中的一个特征提取(f... 阅读全文

posted @ 2016-01-19 15:55 岚之山 阅读(455) 评论(0) 推荐(0)

Spark学习之Spark Streaming(9)

摘要: Spark学习之Spark Streaming(9)1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码。2. Spark Streaming使用离散化(discretized steam)作为抽象... 阅读全文

posted @ 2016-01-19 15:02 岚之山 阅读(253) 评论(0) 推荐(0)

Spark学习之Spark SQL(8)

摘要: Spark学习之Spark SQL(8)1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、2. Spark SQL的三大功能2.1 Spark SQL可以从各种结构化数据(例如JSON、Hive、Parquet等)中读取数据。2.2 Spark SQL不仅支... 阅读全文

posted @ 2016-01-19 14:57 岚之山 阅读(157) 评论(0) 推荐(0)

Spark学习之Spark调优与调试(7)

摘要: Spark学习之Spark调优与调试(7)1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项。当创建一个SparkContext时就会创建一个SparkConf实例。2. Spark特定的优先级顺序来选择实际配置:优先级最高的是在用户代码中显示调用set()... 阅读全文

posted @ 2016-01-19 14:54 岚之山 阅读(228) 评论(0) 推荐(0)

Spark学习之在集群上运行Spark(6)

摘要: Spark学习之在集群上运行Spark(6)1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。3. Spark在分布式环境中的架构:Created with Raphaël ... 阅读全文

posted @ 2016-01-19 12:26 岚之山 阅读(146) 评论(0) 推荐(0)

导航