随笔分类 -  大数据学习

Hadoop Spark等
摘要:写在前面 本来是可以将数据存储在 容器内部 的。但是存在容器内部,一旦容器被删除掉或者容器毁坏(我亲身经历的痛,当时我们的大数据平台就是运行在docker容器内,有次停电后,不管怎样容器都起不来。以前的同事也没有将数据映射到外面 。搞得最后我们重新导的数据,痛的领悟啊~~)。 再就是如果不将数据映射 阅读全文
posted @ 2020-02-12 09:41 liuge36 阅读(313) 评论(0) 推荐(0) 编辑
摘要:第四部分 推荐系统 项目介绍 行业背景: 快速:Apache Spark以内存计算为核心 通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算 完整的生态圈 只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速 “猜你喜欢”为代表的推荐系统,从吃穿住行等 项 阅读全文
posted @ 2019-10-21 13:47 liuge36 阅读(2543) 评论(0) 推荐(0) 编辑
摘要:写在前面 前段时间在实时获取SQLServer数据库变化时候,整个过程可谓是坎坷。然后就想在这里记录一下。 本文的技术栈: "Debezium SQL Server Source Connector" + "Kafka" + "Spark" +MySQL ps:后面应该会将数据放到Kudu上。 然后 阅读全文
posted @ 2019-09-29 11:25 liuge36 阅读(2743) 评论(1) 推荐(0) 编辑
摘要:写在前面: A DataFrame is a Dataset organized into named columns. A Dataset is a distributed collection of data. 贴代码: 简单的csv文件: infos.csv 更多相关小demo:每天一个程序: 阅读全文
posted @ 2019-02-27 15:24 liuge36 阅读(3353) 评论(0) 推荐(0) 编辑
摘要:写在前面: 当得到一个DataFrame对象之后,可以使用对象提供的各种API方法进行直接调用,进行数据的处理。 另,也可以将DataFrame对象通过createOrReplaceTempView()方法,将其转为一张表,从而使用SQL来进行数据处理。 主要介绍一下API的基本操作,因为SQL的话 阅读全文
posted @ 2019-02-27 15:24 liuge36 阅读(526) 评论(0) 推荐(0) 编辑
摘要:写在前面 主要是加载文件为RDD,再把RDD转换为DataFrame,进而使用DataFrame的API或Sql进行数据的方便操作 简单理解:DataFrame=RDD+Schema 贴代码 更多相关小demo:每天一个程序:https://blog.csdn.net/liuge36/column/ 阅读全文
posted @ 2019-02-27 15:23 liuge36 阅读(336) 评论(0) 推荐(0) 编辑
摘要:~~ 前置 ~~ Spark Streaming 常常对接 :本地文件、HDFS、端口、flume、kafka 更多相关小demo:每天一个程序:https://blog.csdn.net/liuge36/column/info/34094 阅读全文
posted @ 2019-02-27 15:23 liuge36 阅读(199) 评论(0) 推荐(0) 编辑
摘要:写在前面 因为觉得自己的代码量实在是太少了,所以,想着,每周至少写5个小的demo程序。现在的想法是,写一些Spark,Storm,MapReduce,Flume,kafka等等单独或组合使用的一些小的Demo。 然后,我会尽力记录好,自己编码过程中遇到的问题,方便自己巩固复习。 废话不多说,我们直 阅读全文
posted @ 2019-02-27 15:22 liuge36 阅读(569) 评论(0) 推荐(0) 编辑
摘要:部分一:Srorm 简介 1.1 Storm是实时的数据流,Hadoop是批量离线数据 起源背景 Twitter 开源的一个类似于Hadoop的实时数据处理框架 Storm是由Nathan Marz 在BackType公司【做社交数据分析,数据量大】工作中实现的,这家公司后来被Twitter收购。 阅读全文
posted @ 2019-01-12 21:00 liuge36 阅读(545) 评论(0) 推荐(0) 编辑
摘要:第一部分 电影网站: 软件架构: SpringBoot+Mybatis+JSP 项目描述:主要实现电影网站的展现 和 用户的所有动作的地方 技术选型: 技术 | 名称 | 官网 | | Spring Boot | 容器 | "https://projects.spring.io/spring boo 阅读全文
posted @ 2019-01-10 17:47 liuge36 阅读(1721) 评论(0) 推荐(0) 编辑
摘要:写在前面 一直不知道这个专栏该如何开始写,思来想去,还是暂时把自己对这个项目的一些想法 和大家分享 的形式来展现。有什么问题,欢迎大家一起留言讨论。 这个项目的源代码是在https://github.com/LuckyZXL2016/Movie_Recommend这个位置。 基于源代码做了一些简单的 阅读全文
posted @ 2019-01-10 17:46 liuge36 阅读(3227) 评论(0) 推荐(0) 编辑
摘要:写在前面 最近在学Elasticsearch , 我相信只要是接触过开发的都会听过Elasticsearch或ELK这么一个技术。 主要用来做全文检索或大数据分析等,之前一直处理了解状态。 所以打算系统学学Elasticsearch ,这也算是我从零学习Elasticsearch的笔记吧。 1. E 阅读全文
posted @ 2018-11-27 19:16 liuge36 阅读(1490) 评论(0) 推荐(1) 编辑
摘要:Flume架构介绍和安装 ================ 写在前面 在学习一门新的技术之前,我们得知道了解这个东西有什么用?我们可以使用它来做些什么呢?简单来说,flume是大数据日志分析中不能缺少的一个组件,既可以使用在流处理中,也可以使用在数据的批处理中。 1.流处理: 2.离线批处理: 分析 阅读全文
posted @ 2018-10-31 14:44 liuge36 阅读(301) 评论(0) 推荐(0) 编辑
摘要:Flume案例实战 写在前面 通过前面一篇文章http://blog.csdn.net/liuge36/article/details/78589505的介绍我们已经知道flume到底是什么?flume可以用来做什么?但是,具体怎么做,这就是我们这篇文章想要介绍的。话不多说,直接来案例学习。 实战一 阅读全文
posted @ 2018-10-31 14:43 liuge36 阅读(416) 评论(0) 推荐(2) 编辑
摘要:Kafka部署与使用 写在前面 从上一篇Kafka的架构介绍和安装中,可能,你还一直很蒙,kafka到底该怎么使用呢?接下来,我们就来介绍Kafka的部署与使用。上篇文章中我们说到,Kafka的几个重要组成是:1.producer 2.consumer 3.broker 4.topic .因此我们就 阅读全文
posted @ 2018-10-31 14:43 liuge36 阅读(219) 评论(0) 推荐(0) 编辑
摘要:Kafka架构介绍和安装 写在前面 还是那句话,当你学习一个新的东西之前,你总得知道这个东西是什么?这个东西可以用来做什么?然后你才会去学习它,使用它。简单来说,kafka既是一个消息队列,如今,它也演变为一个分布式的流处理平台,这一点就是很厉害的了。所以,学习kafka对于大数据的小伙伴们来说,是 阅读全文
posted @ 2018-10-31 14:43 liuge36 阅读(144) 评论(0) 推荐(0) 编辑
摘要:Flume和Kafka完成实时数据的采集 写在前面 Flume和Kafka在生产环境中,一般都是结合起来使用的。可以使用它们两者结合起来收集实时产生日志信息,这一点是很重要的。如果,你不了解flume和kafka,你可以先查看我写的关于那两部分的知识。再来学习,这部分的操作,也是可以的。 实时数据的 阅读全文
posted @ 2018-10-31 14:42 liuge36 阅读(3487) 评论(0) 推荐(1) 编辑
摘要:环境搭建 Hadoop集群搭建 写在前面,前面我们快速搭建好了centos的集群环境,接下来,我们就来开始hadoop的集群的搭建工作 实验环境 Hadoop版本:CDH 5.7.0 这里,我想说一下,我们我没有选择官方版本,是因为,cdh版本已经解决好了各个组件之间的依赖。因为,后面,我们还会使用 阅读全文
posted @ 2018-10-31 14:41 liuge36 阅读(296) 评论(0) 推荐(0) 编辑
摘要:ELK搭建实时日志分析平台 导言 ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成,ELK平台可以同时实现日志收集、日志搜索和日志分析的功能。对于生产环境中海量日志信息的分析处理无疑不是一个好的解决方案。 官方网站:https://www.elastic.co/ 阅读全文
posted @ 2018-10-31 14:41 liuge36 阅读(299) 评论(0) 推荐(0) 编辑
摘要:写在前面 接触spark有一段时间了,但是一直都没有真正意义上的在集群上面跑自己编写的代码。今天在本地使用scala编写一个简单的WordCount程序。然后,打包提交到集群上面跑一下... 在本地使用idea开发,由于这个程序比较简单,我这里就直接给出代码。 代码,写完之后,就是打包成一个jar文 阅读全文
posted @ 2018-10-31 14:39 liuge36 阅读(636) 评论(0) 推荐(0) 编辑