01 2020 档案

摘要:[TOC] 资料 "Spark机器学习库(MLlib)中文指南" "关于spark机器学习的知乎专栏" "Spark入门实战系列 8.Spark MLlib(上) 机器学习及SparkMLlib简介" "基本Kmeans算法介绍及其实现" [spark MLlib 概念 1:相关系数( PPMCC 阅读全文
posted @ 2020-01-31 13:44 ltl0501 阅读(513) 评论(0) 推荐(0)
摘要:[TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 阅读全文
posted @ 2020-01-24 21:32 ltl0501 阅读(590) 评论(0) 推荐(0)
摘要:[TOC] 需求 统计每日 PV 和独立 IP 统计每种不同的 HTTP 状态对应的访问数 统计不同独立 IP 的访问量 统计不同页面的访问量 基础知识准备 Apache日志位置 Windows下是: C:\Program Files\Apache Software Foundation\Apach 阅读全文
posted @ 2020-01-12 11:55 ltl0501 阅读(471) 评论(0) 推荐(0)
摘要:[TOC] sbt安装 sbt 是一款 spark 用来对 scala 编写的程序打包的工具 输入如下的命令可以对sbt进行安装 apt get install那个执行完毕之后,输入sbt,这时sbt不会立即启动而会花费很长的时间来下载sbt所需要的依赖关系 等待结束之后会出现交互式命令行: 完整地 阅读全文
posted @ 2020-01-05 21:13 ltl0501 阅读(541) 评论(0) 推荐(0)
摘要:一个Spark应用开发的简单例子 这个实验楼上的项目题目是某年《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。下面是我通过实验楼的教程的学习记录。 [TOC] 我需要做的准备工作 复习编程模型 Spark 上开发的应用程序都是由一个driver programe构成, 阅读全文
posted @ 2020-01-04 16:43 ltl0501 阅读(741) 评论(0) 推荐(0)