大数据学习 - 随笔分类 - liuge36

Docker 容器数据持久化（系统学习Docker05）

摘要：写在前面本来是可以将数据存储在容器内部的。但是存在容器内部，一旦容器被删除掉或者容器毁坏（我亲身经历的痛，当时我们的大数据平台就是运行在docker容器内，有次停电后，不管怎样容器都起不来。以前的同事也没有将数据映射到外面。搞得最后我们重新导的数据，痛的领悟啊~~）。再就是如果不将数据映射阅读全文

posted @ 2020-02-12 09:41 liuge36 阅读(340) 评论(0) 推荐(0)

基于Spark的电影推荐系统（推荐系统~1）

摘要：第四部分推荐系统项目介绍行业背景：快速：Apache Spark以内存计算为核心通用：一站式解决各个问题，ADHOC SQL查询，流计算，数据挖掘，图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速 “猜你喜欢”为代表的推荐系统，从吃穿住行等项阅读全文

posted @ 2019-10-21 13:47 liuge36 阅读(2663) 评论(0) 推荐(0)

Debezium SQL Server Source Connector+Kafka+Spark+MySQL 实时数据处理

摘要：写在前面前段时间在实时获取SQLServer数据库变化时候，整个过程可谓是坎坷。然后就想在这里记录一下。本文的技术栈： "Debezium SQL Server Source Connector" + "Kafka" + "Spark" +MySQL ps:后面应该会将数据放到Kudu上。然后阅读全文

posted @ 2019-09-29 11:25 liuge36 阅读(2899) 评论(1) 推荐(0)

基于API和SQL的基本操作【DataFrame】

摘要：写在前面：当得到一个DataFrame对象之后，可以使用对象提供的各种API方法进行直接调用，进行数据的处理。另，也可以将DataFrame对象通过createOrReplaceTempView()方法，将其转为一张表，从而使用SQL来进行数据处理。主要介绍一下API的基本操作，因为SQL的话阅读全文

posted @ 2019-02-27 15:24 liuge36 阅读(547) 评论(0) 推荐(0)

DataFrame 转换为Dataset

摘要：写在前面： A DataFrame is a Dataset organized into named columns. A Dataset is a distributed collection of data. 贴代码：简单的csv文件： infos.csv 更多相关小demo：每天一个程序：阅读全文

posted @ 2019-02-27 15:24 liuge36 阅读(3397) 评论(0) 推荐(0)

WordCount程序【Spark Streaming版本】

摘要：~~ 前置 ~~ Spark Streaming 常常对接：本地文件、HDFS、端口、flume、kafka 更多相关小demo：每天一个程序：https://blog.csdn.net/liuge36/column/info/34094 阅读全文

posted @ 2019-02-27 15:23 liuge36 阅读(212) 评论(0) 推荐(0)

RDD转换为DataFrame【反射/编程】

摘要：写在前面主要是加载文件为RDD，再把RDD转换为DataFrame,进而使用DataFrame的API或Sql进行数据的方便操作简单理解：DataFrame=RDD+Schema 贴代码更多相关小demo：每天一个程序：https://blog.csdn.net/liuge36/column/ 阅读全文

posted @ 2019-02-27 15:23 liuge36 阅读(355) 评论(0) 推荐(0)

基于RDD实现简单的WordCount程序

摘要：写在前面因为觉得自己的代码量实在是太少了，所以，想着，每周至少写5个小的demo程序。现在的想法是，写一些Spark,Storm,MapReduce，Flume,kafka等等单独或组合使用的一些小的Demo。然后，我会尽力记录好，自己编码过程中遇到的问题，方便自己巩固复习。废话不多说，我们直阅读全文

posted @ 2019-02-27 15:22 liuge36 阅读(602) 评论(0) 推荐(0)

Storm入门,看这篇就够了

摘要：部分一：Srorm 简介 1.1 Storm是实时的数据流，Hadoop是批量离线数据起源背景 Twitter 开源的一个类似于Hadoop的实时数据处理框架 Storm是由Nathan Marz 在BackType公司【做社交数据分析，数据量大】工作中实现的，这家公司后来被Twitter收购。阅读全文

posted @ 2019-01-12 21:00 liuge36 阅读(567) 评论(0) 推荐(0)

基于Spark的电影推荐系统（电影网站）

摘要：第一部分电影网站：软件架构： SpringBoot+Mybatis+JSP 项目描述：主要实现电影网站的展现和用户的所有动作的地方技术选型：技术 | 名称 | 官网 | | Spring Boot | 容器 | "https://projects.spring.io/spring boo 阅读全文

posted @ 2019-01-10 17:47 liuge36 阅读(1852) 评论(0) 推荐(0)

基于Spark的电影推荐系统（实战简介）

摘要：写在前面一直不知道这个专栏该如何开始写，思来想去，还是暂时把自己对这个项目的一些想法和大家分享的形式来展现。有什么问题，欢迎大家一起留言讨论。这个项目的源代码是在https://github.com/LuckyZXL2016/Movie_Recommend这个位置。基于源代码做了一些简单的阅读全文

posted @ 2019-01-10 17:46 liuge36 阅读(3456) 评论(0) 推荐(0)

全文搜索引擎 Elasticsearch

摘要：写在前面最近在学Elasticsearch ，我相信只要是接触过开发的都会听过Elasticsearch或ELK这么一个技术。主要用来做全文检索或大数据分析等，之前一直处理了解状态。所以打算系统学学Elasticsearch ，这也算是我从零学习Elasticsearch的笔记吧。 1. E 阅读全文

posted @ 2018-11-27 19:16 liuge36 阅读(1507) 评论(0) 推荐(1)

Flume系列一之架构介绍和安装

摘要：Flume架构介绍和安装 ================ 写在前面在学习一门新的技术之前，我们得知道了解这个东西有什么用？我们可以使用它来做些什么呢？简单来说，flume是大数据日志分析中不能缺少的一个组件，既可以使用在流处理中，也可以使用在数据的批处理中。 1.流处理： 2.离线批处理：分析阅读全文

posted @ 2018-10-31 14:44 liuge36 阅读(327) 评论(0) 推荐(0)

Kafka系列一之架构介绍和安装

摘要：Kafka架构介绍和安装写在前面还是那句话，当你学习一个新的东西之前，你总得知道这个东西是什么？这个东西可以用来做什么？然后你才会去学习它，使用它。简单来说，kafka既是一个消息队列，如今，它也演变为一个分布式的流处理平台，这一点就是很厉害的了。所以，学习kafka对于大数据的小伙伴们来说，是阅读全文

posted @ 2018-10-31 14:43 liuge36 阅读(155) 评论(0) 推荐(0)

Flume系列二之案例实战

摘要：Flume案例实战写在前面通过前面一篇文章http://blog.csdn.net/liuge36/article/details/78589505的介绍我们已经知道flume到底是什么？flume可以用来做什么？但是，具体怎么做，这就是我们这篇文章想要介绍的。话不多说，直接来案例学习。实战一阅读全文

posted @ 2018-10-31 14:43 liuge36 阅读(461) 评论(0) 推荐(2)

Kafka系列二之部署与使用

摘要：Kafka部署与使用写在前面从上一篇Kafka的架构介绍和安装中，可能，你还一直很蒙，kafka到底该怎么使用呢？接下来，我们就来介绍Kafka的部署与使用。上篇文章中我们说到，Kafka的几个重要组成是:1.producer 2.consumer 3.broker 4.topic .因此我们就阅读全文

posted @ 2018-10-31 14:43 liuge36 阅读(229) 评论(0) 推荐(0)

Flume和Kafka完成实时数据的采集

摘要：Flume和Kafka完成实时数据的采集写在前面 Flume和Kafka在生产环境中，一般都是结合起来使用的。可以使用它们两者结合起来收集实时产生日志信息，这一点是很重要的。如果，你不了解flume和kafka，你可以先查看我写的关于那两部分的知识。再来学习，这部分的操作，也是可以的。实时数据的阅读全文

posted @ 2018-10-31 14:42 liuge36 阅读(3568) 评论(0) 推荐(1)

环境搭建-Hadoop集群搭建

摘要：环境搭建 Hadoop集群搭建写在前面，前面我们快速搭建好了centos的集群环境，接下来，我们就来开始hadoop的集群的搭建工作实验环境 Hadoop版本：CDH 5.7.0 这里，我想说一下，我们我没有选择官方版本，是因为，cdh版本已经解决好了各个组件之间的依赖。因为，后面，我们还会使用阅读全文

posted @ 2018-10-31 14:41 liuge36 阅读(317) 评论(0) 推荐(0)

ELK搭建实时日志分析平台

摘要：ELK搭建实时日志分析平台导言 ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成，ELK平台可以同时实现日志收集、日志搜索和日志分析的功能。对于生产环境中海量日志信息的分析处理无疑不是一个好的解决方案。官方网站：https://www.elastic.co/ 阅读全文

posted @ 2018-10-31 14:41 liuge36 阅读(313) 评论(0) 推荐(0)

提交第一个spark作业到集群运行

摘要：写在前面接触spark有一段时间了，但是一直都没有真正意义上的在集群上面跑自己编写的代码。今天在本地使用scala编写一个简单的WordCount程序。然后，打包提交到集群上面跑一下... 在本地使用idea开发，由于这个程序比较简单，我这里就直接给出代码。代码，写完之后，就是打包成一个jar文阅读全文

posted @ 2018-10-31 14:39 liuge36 阅读(650) 评论(0) 推荐(0)

留歌__36的博客

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～我的个人网站： how2s.cn

随笔分类 - 大数据学习

公告

留歌__36的博客

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～ 我的个人网站： how2s.cn

随笔分类 - 大数据学习

公告

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～我的个人网站： how2s.cn