摘要: [TOC] 资料 "Spark机器学习库(MLlib)中文指南" "关于spark机器学习的知乎专栏" "Spark入门实战系列 8.Spark MLlib(上) 机器学习及SparkMLlib简介" "基本Kmeans算法介绍及其实现" [spark MLlib 概念 1:相关系数( PPMCC 阅读全文
posted @ 2020-01-31 13:44 ltl0501 阅读(502) 评论(0) 推荐(0)
摘要: [TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 阅读全文
posted @ 2020-01-24 21:32 ltl0501 阅读(578) 评论(0) 推荐(0)
摘要: [TOC] 需求 统计每日 PV 和独立 IP 统计每种不同的 HTTP 状态对应的访问数 统计不同独立 IP 的访问量 统计不同页面的访问量 基础知识准备 Apache日志位置 Windows下是: C:\Program Files\Apache Software Foundation\Apach 阅读全文
posted @ 2020-01-12 11:55 ltl0501 阅读(467) 评论(0) 推荐(0)
摘要: [TOC] sbt安装 sbt 是一款 spark 用来对 scala 编写的程序打包的工具 输入如下的命令可以对sbt进行安装 apt get install那个执行完毕之后,输入sbt,这时sbt不会立即启动而会花费很长的时间来下载sbt所需要的依赖关系 等待结束之后会出现交互式命令行: 完整地 阅读全文
posted @ 2020-01-05 21:13 ltl0501 阅读(525) 评论(0) 推荐(0)
摘要: 一个Spark应用开发的简单例子 这个实验楼上的项目题目是某年《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。下面是我通过实验楼的教程的学习记录。 [TOC] 我需要做的准备工作 复习编程模型 Spark 上开发的应用程序都是由一个driver programe构成, 阅读全文
posted @ 2020-01-04 16:43 ltl0501 阅读(736) 评论(0) 推荐(0)
摘要: spark高级应用与持久化 [TOC] 向spark传递函数参数 上一次学的spark的transform操作里面,有一些函数的描述是“参数是函数”,而向函数传递这个作为参数的函数的用法一般有两种 匿名函数 匿名函数,可以减少代码量。匿名函数的定义 = 左边是参数,参数可以省略参数类型,右边是函数体 阅读全文
posted @ 2019-12-30 18:27 ltl0501 阅读(342) 评论(0) 推荐(0)
摘要: spark RDD [TOC] 关于sparkRDD基本概念 RDD:弹性分布式数据集,是spark对数据的核心抽象,也是spark数据处理的基本单位 spark处理数据之前会首先把数据转换成RDD然后在RDD上对数据进行操作 spark对RDD的数据操作,其本身有两种对于RDD的算子:转换(tra 阅读全文
posted @ 2019-12-29 22:19 ltl0501 阅读(1297) 评论(0) 推荐(0)
摘要: scala入门 [TOC] 1. 基础语法 标识符区分大小写 class 名称首字母需大写 方法名称首字母需小写 程序文件名称需与 object 名称相同 main 方法是 Scala 程序的入口,每个 Scala 程序都必须定义此方法。 标识符 在 Scala 中标识符只能包括字符、数字和下划线, 阅读全文
posted @ 2019-12-27 15:20 ltl0501 阅读(200) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2019-12-26 17:01 ltl0501 阅读(5) 评论(0) 推荐(0)
摘要: Spark学习笔记1 基本概念、部署、启动 实验楼平台上的实验环境及版本:java8,python2.7,scala2.11.8,hadoop2.7.3,spark2.4.4 学习内容 基本概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop, 阅读全文
posted @ 2019-12-25 22:35 ltl0501 阅读(220) 评论(0) 推荐(0)