文章分类 -  大数据

介绍基于Hadoop 2.7.3的大数据基础到高阶知识,作为个人学习的备份
摘要:一、Spark生态简介 官网: http://spark.apache.org/ Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系 阅读全文
posted @ 2018-06-15 15:26 爱寂寞撒的谎言 阅读(748) 评论(0) 推荐(0)
摘要:一、什么是JdbcRDD 下面一段话来源于package org.apache.spark.rdd.JdbcRDD的源码: 简单来说就是可以在一个connection上执行SQL并且获取返回值的RDD。 二、JdbcRDD的使用 使用JdbcRDD执行SQL查询MySQL数据库并且打印结果: 执行的 阅读全文
posted @ 2018-06-15 11:17 爱寂寞撒的谎言 阅读(465) 评论(0) 推荐(0)
摘要:一、读取日志格式 使用的测试数据是Tomcat的访问日志,日志格式如下 192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30/Jul/2017:12:5 阅读全文
posted @ 2018-06-15 10:42 爱寂寞撒的谎言 阅读(820) 评论(0) 推荐(0)
摘要:【参考文章】https://blog.csdn.net/zixiao217/article/details/76357027 由于后面的开发使用的是IDEA,但是还有人使用Eclipse,所以Eclipse运行scala参考别的文章。 Scala 开发环境 Scala 是 类Java 语言, 可以在 阅读全文
posted @ 2018-05-31 16:42 爱寂寞撒的谎言 阅读(1162) 评论(0) 推荐(0)
摘要:一、Scala基础与简介 1、多范式:支持面向对象、支持函数式编程 2、底层依赖JVM(后面会看到,很多异常是基于java的异常) (以下废话来源网络) Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java 阅读全文
posted @ 2018-05-31 14:44 爱寂寞撒的谎言 阅读(187) 评论(0) 推荐(0)
摘要:一、Storm编程模型 Topology:Storm中运行的一个实时应用程序的名称。(拓扑) Spout:在一个topology中获取源数据流的组件。 通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。 Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己 阅读全文
posted @ 2018-05-28 14:47 爱寂寞撒的谎言 阅读(1362) 评论(0) 推荐(0)
摘要:一、大数据实时计算框架 1、什么是实时计算?流式计算? (一)什么是Storm?Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对 阅读全文
posted @ 2018-05-25 14:41 爱寂寞撒的谎言 阅读(1505) 评论(0) 推荐(0)
摘要:>虚拟机必备软件 Hadoop是基于Java语言的,因此每一台虚拟机都需要安装的配置。 JDK 1.8:jdk-8u144-linux-x64.tar.gz Hadoop 2.7.3 :hadoop-2.7.3.tar.gz 其他软件:Tree >简单约定 在Linux下新建目录 #mkdir ~/ 阅读全文
posted @ 2018-04-25 11:48 爱寂寞撒的谎言 阅读(97) 评论(0) 推荐(0)
摘要:>大数据实验环境 >Redhat7虚拟机安装与配置 由于Hadoop支持本地模式(1台),伪分布模式(1台),全分布模式(3台)。所以为了学习,至少搭建5台虚拟机。下面演示的是一台虚拟机的安装与配置,其他虚拟机参照第一台配置即可。 VMware自定义安装虚拟机 VMware自定义安装虚拟机 新建虚拟 阅读全文
posted @ 2018-04-25 10:46 爱寂寞撒的谎言 阅读(261) 评论(0) 推荐(0)