2019 年 3月 29 日随笔档案 - 大葱拌豆腐

2019年3月29日

基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

摘要： Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql，然后再对查询到的数据进行处理也能得到预期的结果，但是Mysql往往阅读全文

posted @ 2019-03-29 22:41 大葱拌豆腐阅读(4291) 评论(1) 推荐(2)

SparkML之推荐引擎（二)---推荐模型评估

摘要：本文内容和代码是接着上篇文章来写的，推荐先看一下哈~ 我们上一篇文章是写了电影推荐的实现，但是推荐内容是否合理呢，这就需要我们对模型进行评估针对推荐模型，这里根据均方差和 K值平均准确率来对模型进行评估，MLlib也对这几种评估方法都有提供内置的函数在真实情况下，是要不断地对推荐模型的三个阅读全文

posted @ 2019-03-29 18:14 大葱拌豆腐阅读(1495) 评论(0) 推荐(0)

SparkML之推荐引擎（一）---电影推荐

摘要：本文将使用 SparkML 来构建推荐引擎。推荐引擎算法大致分为基于内容的过滤、协同过滤、矩阵分解，本文将使用基于属于矩阵分解的最小二乘法算法来构建推荐引擎。对于推荐引擎模块这里将分为两篇文章，第一篇文章主要是以实现推荐功能为主，第二篇文章主要是对模型进行评估文章将按照以下章节来进行书写阅读全文

posted @ 2019-03-29 17:36 大葱拌豆腐阅读(855) 评论(0) 推荐(0)

Hive为什么要启用Metastore？

摘要：转载来自： https://blog.csdn.net/qq_40990732/article/details/80914873 https://blog.csdn.net/tp15868352616/article/details/80891057 相关概念 1.Metadata概念：元数据包含阅读全文

posted @ 2019-03-29 15:37 大葱拌豆腐阅读(4208) 评论(0) 推荐(0)

Hive中MetaServer与HiveServer2的应用

摘要：在hive中有metaServer与hiveServer2两种服务，看了好多文章说这两个的区别，文章内容有对有错，不够全面，故在这里好好总结一下。首先，下面这个hive构架图，我们一定不陌生，它反应出hive有哪些组件结构当然下面的图是hadoop1的部分，现在JobTracker是Yarn了阅读全文

posted @ 2019-03-29 15:26 大葱拌豆腐阅读(3621) 评论(0) 推荐(0)

公告