上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页
摘要: 主要内容: Kafka概述 Kafka集群部署 Kafka与Flume比较 6.1 Kafka概述 6.1.1 消息队列 消息系统负责将数据从一个应用程序传输到另一个应用程序,因此应用程序可以专注于数据本身,而不用担心如何共享它。 消息系统有两种消息模式可用 点对点消息系统 发布 - 订阅(pub- 阅读全文
posted @ 2021-10-30 10:41 silvan_happy 阅读(335) 评论(0) 推荐(0)
摘要: 主要内容: 了解Flume Flume安装部署 HDFS Sink 5.1 了解Flume 1) Flume概述 Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的 阅读全文
posted @ 2021-10-25 20:26 silvan_happy 阅读(1045) 评论(0) 推荐(0)
摘要: 4.1环境准备 4.1.1 启动Hadoop 4.1.2 安装MySQL 1、安装包 将安装包复制到目录/usr/local/,当前使用版本如下: mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz 解压: #tar xzvf mysql-5.7.22-linux- 阅读全文
posted @ 2021-10-19 20:57 silvan_happy 阅读(1723) 评论(0) 推荐(0)
摘要: 主要内容: HBase简介 Hadoop、HBase和Hive三者关系 启动Hadoop集群 ZooKeeper集群的部署 HBase集群的部署 3.-1 HBase简介 数据模型概述: 1) HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳 2) 每个值是一个 阅读全文
posted @ 2021-10-14 20:12 silvan_happy 阅读(1071) 评论(0) 推荐(0)
摘要: 2.4 分布式文件系统HDFS及其命令 2.4.1 分布式文件系统与HDFS(Distributed File System) 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件 阅读全文
posted @ 2021-10-13 20:35 silvan_happy 阅读(228) 评论(0) 推荐(0)
摘要: 第2章 大数据处理架构Hadoop In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log,they didn’t try to grow a larger ox. We shoul 阅读全文
posted @ 2021-10-13 19:48 silvan_happy 阅读(519) 评论(0) 推荐(0)
摘要: 操作符 说明 实例 . 表示任何单个字符 [] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a-z]表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc*表示 ab、abc、abcc、abccc 阅读全文
posted @ 2021-03-10 21:20 silvan_happy 阅读(193) 评论(0) 推荐(0)
摘要: 来自北理嵩老师的案例,之前嵩老师的网址我没办法访问,新的网址爬虫不成功,所以改了一下。import requestsfrom bs4 import BeautifulSoupimport bs4#通过URL信息从网页爬取数据def getHTMLText(url): try: r = request 阅读全文
posted @ 2021-03-10 20:38 silvan_happy 阅读(404) 评论(0) 推荐(0)
摘要: hadoop启动后一切正常,执行mr任务时卡住 如图: 开启hadoop详细日志会有如下情况(不会开启的跳过),一直在连接: 通过查看日志发现提示如下错误: 2016-03-15 15:51:01,740 ERROR org.apache.hadoop.yarn.server.resourceman 阅读全文
posted @ 2020-09-24 17:11 silvan_happy 阅读(1894) 评论(0) 推荐(0)
摘要: 实验目的 基本的select操作 基于分区的查询 Join查询 硬件环境要求 实验环境 PC机至少4G内存,硬盘至少预留50G空间。 软件要求 已安装并启动Hadoop 已安装并启动Hive 实验要求 应用基本的Select 操作 应用基于分区的查询 应用Join进行查询 实验步骤 第7章 Hive 阅读全文
posted @ 2020-02-08 09:33 silvan_happy 阅读(661) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页