随笔分类 -  大数据基础

摘要:前言 上一章介绍了Kafka是什么,这章就讲讲怎么搭建以及如何使用。 快速开始 Step 1:Download the code Download the 2.4.1 release and un-tar it. > tar -xzf kafka_2.12-2.4.1.tgz > cd kafka_ 阅读全文
posted @ 2020-04-19 23:47 数据驱动 阅读(539) 评论(0) 推荐(0)
摘要:作者:Jules S. Damji 译者:足下 本文翻译自 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets ,翻译已获得原作者 Jules S. Damji 的授权。 最令开发者们高兴的事莫过于有一组 API,可以大 阅读全文
posted @ 2020-04-07 17:09 数据驱动 阅读(493) 评论(0) 推荐(0)
摘要:Scala是什么? Scala是一种基于函数式编程和面向对象的高级语言。它开发了Spark等大型应用。它和Java有效集成,底层也是支持JVM的。 它有六大特性: 无缝JAVA互操作 Scala在JVM上运行,因此Java和Scala堆栈可以自由混合以实现完全无缝的集成。 类型推断 根据变量自动推断 阅读全文
posted @ 2020-03-17 02:45 数据驱动 阅读(550) 评论(0) 推荐(0)
摘要:Redis是什么? 官方介绍: Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。 它支持多种类型的数据结构,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范 阅读全文
posted @ 2020-03-12 15:58 数据驱动 阅读(265) 评论(0) 推荐(0)
摘要:一个文明的发展离不开数据,数据包括我们看到的,听到的,只要能存储的东西都称之为数据。 在没有计算机之前,我们只能通过器具,骨头,纸制品来进行存储。这些介质也限制了我们只能存储文字和手工绘画,我们一起来看看古代都有哪些存储介质: 一.古代的存储介质 1.1甲骨文 现存中国最早的文字,大多是书写或契刻在 阅读全文
posted @ 2020-03-11 16:36 数据驱动 阅读(1732) 评论(0) 推荐(0)
摘要:一、简介 ApacheKafka 是一个分布式的流处理平台。它具有以下特点: 支持消息的发布和订阅,类似于 RabbtMQ、ActiveMQ 等消息队列; 支持数据实时处理; 能保证消息的可靠性投递; 支持消息的持久化存储,并通过多副本分布式的存储方案来保证消息的容错; 高吞吐率,单 Broker 阅读全文
posted @ 2020-03-07 20:01 数据驱动 阅读(623) 评论(0) 推荐(0)
摘要:1.Storm在Linux环境配置 主机名 tuge1 tuge2 tuge3 部署环境 Zookeeper/Nimbus Zookeeper/Supervisor Zookeeper/Supervisor ​ (部署一览图) 1.1 配置Zookeeper环境(三台机器都要配置,可以先配置一台,然 阅读全文
posted @ 2020-03-06 03:06 数据驱动 阅读(584) 评论(0) 推荐(0)
摘要:1.流式计算是什么? 流式计算是相对于批处理来说的,我们以前学的Mapreduce就是批处理,它属于离线计算,计算的数据都是过去某个时间点的,还有我们开发的软件管理系统,查询的也是过去某个时刻录入的数据。那么流式计算呢,它是在输入录入的时候就开始计算了,而且计算的速度还很快,可以达到毫秒级,计算完成 阅读全文
posted @ 2020-03-01 22:42 数据驱动 阅读(5260) 评论(0) 推荐(0)
摘要:1.要求和支持的版本 (PS:我使用的环境,都用加粗标识了。) 1.1 支持的操作系统版本 操作系统 版本 RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, 7.3, 7.2,6.10, 6.9 , 6.8 Oracle Linux (OL) 7.4, 7 阅读全文
posted @ 2020-02-26 18:26 数据驱动 阅读(1865) 评论(0) 推荐(1)
摘要:1.CDH概述 CDH(Cloudra's Distribution Apache Of Hadoop)是Apache Hadoop和相关项目的最完整,经过测试和最流行的发行版。CDH提供Hadoop的核心要素–可扩展的存储和分布式计算–以及基于Web的用户界面和重要的企业功能。CDH是Apache 阅读全文
posted @ 2020-02-18 15:09 数据驱动 阅读(6246) 评论(0) 推荐(0)
摘要:一、Flume安装 参考:Flume 简介及基本使用 二、Sqoop安装 参考:Sqoop简介与安装 三、Flume和Sqoop结合使用案例 日志分析系统整体架构图: 3.1配置nginx环境 请参考菜鸟教程: https://www.runoob.com/linux/nginx-install-s 阅读全文
posted @ 2020-01-22 09:23 数据驱动 阅读(997) 评论(0) 推荐(1)
摘要:在2.0之前HDFS中只有一个NameNode,但对于在线的应用只有一个NameNode是不安全的,故在2.0中对NameNode进行抽象,抽象成NamService其下包含有多个NameNode,但只有一个运行在活跃状态,因此需要zookeeper进行选举和自动转换。一旦active当掉之后zoo 阅读全文
posted @ 2019-12-07 19:48 数据驱动 阅读(1333) 评论(0) 推荐(0)
摘要:参考: https://blog.csdn.net/u012848709/article/details/83744699 自己照着搭建了下,顺便把坑也踩了下,项目见云盘: 链接:https://pan.baidu.com/s/1A_ZutmadXRIKJhPYxvg_bw 提取码:49l3 阅读全文
posted @ 2019-11-30 00:29 数据驱动 阅读(173) 评论(0) 推荐(0)
摘要:一、简述 截至到目前 (2019.04),HBase 有两个主要的版本,分别是 1.x 和 2.x ,两个版本的 Java API 有所不同,1.x 中某些方法在 2.x 中被标识为 @deprecated 过时。所以下面关于 API 的样例,我会分别给出 1.x 和 2.x 两个版本。完整的代码见 阅读全文
posted @ 2019-11-22 17:29 数据驱动 阅读(531) 评论(0) 推荐(0)
摘要:学习方法 可以参考官方文档的简单示例来 点击查看 可以直接在控制台使用help命令查看 例如直接使用help命令: 从上图可以看到,表结构的操作,表数据的操作都展示了。接下来我们可以针对具体的命令使用help查看,比如:alter alter help 从图中可以看到,你可以更改列族,可以使用区域复 阅读全文
posted @ 2019-11-22 14:16 数据驱动 阅读(1485) 评论(0) 推荐(0)
摘要:环境介绍 tuge1 tuge2 tuge3 tuge4 NameNode NameNode DataNode DataNode ZooKeeper ZooKeeper ZooKeeper ZooKeeper JournalNode JournalNode JournalNode ZKFC ZKFC 阅读全文
posted @ 2019-11-18 17:35 数据驱动 阅读(399) 评论(0) 推荐(0)
摘要:一、Hbase是什么? Hbase属于NoSql的一种。 NoSql数据库分为如下几类: Key-Value类型数据库 这类数据库主要会使用到一个哈希表,这个表有一个特定的键和一个指针指向特定的数据。key/value模型对IT系统来说简单、易部署。但是对DBA只对部分值进行查询和更新的时候,key 阅读全文
posted @ 2019-11-18 09:50 数据驱动 阅读(1197) 评论(0) 推荐(0)
摘要:本博客主要介绍Hive和MySql的搭建: 学习视频一天就讲完了,我看完了自己搭建MySql遇到了一堆坑,然后花了快两天才解决完,终于把MySql搭建好了。然后又去搭建Hive,又遇到了很多坑,就这样一直解决问题,加上网上搜索和个人排查检查日志。搜索百度,百度不行搜索Bing,看了csdn,看str 阅读全文
posted @ 2019-11-10 11:34 数据驱动 阅读(874) 评论(0) 推荐(0)
摘要:这篇文章主要介绍Hive的概念。 简介: Hive中文名叫数据仓库管理系统,之前我们操作MapReduce必须通过编写代码或者通过特殊命令来实现,有了Hive我们通过常用的SQL语句就能操作MapReduce集群了。是不是感觉很方便。 这也是方便不懂MapReduce原理,懂SQL语句的人用的。 有 阅读全文
posted @ 2019-11-08 17:08 数据驱动 阅读(1858) 评论(0) 推荐(0)
摘要:一.环境 Hadoop部署环境: Centos3.10.0-327.el7.x86_64 Hadoop2.6.5 Java1.8.0_221 代码运行环境: Windows 10 Hadoop 2.6.5 二.安装Hadoop-Eclipse-Plugin 在Eclipse中编译和运行Mapredu 阅读全文
posted @ 2019-10-30 14:37 数据驱动 阅读(582) 评论(0) 推荐(0)