摘要: Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往 阅读全文
posted @ 2019-03-29 22:41 大葱拌豆腐 阅读(4284) 评论(1) 推荐(2)
摘要: 本文内容和代码是接着上篇文章来写的,推荐先看一下哈~ 我们上一篇文章是写了电影推荐的实现,但是推荐内容是否合理呢,这就需要我们对模型进行评估 针对推荐模型,这里根据 均方差 和 K值平均准确率 来对模型进行评估,MLlib也对这几种评估方法都有提供内置的函数 在真实情况下,是要不断地对推荐模型的三个 阅读全文
posted @ 2019-03-29 18:14 大葱拌豆腐 阅读(1490) 评论(0) 推荐(0)
摘要: 本文将使用 SparkML 来构建推荐引擎。 推荐引擎算法大致分为 基于内容的过滤、协同过滤、矩阵分解,本文将使用基于属于矩阵分解的 最小二乘法 算法来构建推荐引擎。 对于推荐引擎模块这里将分为两篇文章,第一篇文章主要是以实现推荐功能为主,第二篇文章主要是对模型进行评估 文章将按照以下章节来进行书写 阅读全文
posted @ 2019-03-29 17:36 大葱拌豆腐 阅读(852) 评论(0) 推荐(0)
摘要: 转载来自: https://blog.csdn.net/qq_40990732/article/details/80914873 https://blog.csdn.net/tp15868352616/article/details/80891057 相关概念 1.Metadata概念: 元数据包含 阅读全文
posted @ 2019-03-29 15:37 大葱拌豆腐 阅读(4202) 评论(0) 推荐(0)
摘要: 在hive中有metaServer与hiveServer2两种服务,看了好多文章说这两个的区别,文章内容有对有错,不够全面,故在这里好好总结一下。 首先,下面这个hive构架图,我们一定不陌生,它反应出hive有哪些组件结构 当然下面的图是hadoop1的部分,现在JobTracker是Yarn了 阅读全文
posted @ 2019-03-29 15:26 大葱拌豆腐 阅读(3619) 评论(0) 推荐(0)