silvan_happy - 博客园

2021年10月30日

摘要：主要内容： Kafka概述 Kafka集群部署 Kafka与Flume比较 6.1 Kafka概述 6.1.1 消息队列消息系统负责将数据从一个应用程序传输到另一个应用程序，因此应用程序可以专注于数据本身，而不用担心如何共享它。消息系统有两种消息模式可用点对点消息系统发布 - 订阅(pub- 阅读全文

posted @ 2021-10-30 10:41 silvan_happy 阅读(340) 评论(0) 推荐(0)

2021年10月25日

第五章 Flume日志采集系统

摘要：主要内容：了解Flume Flume安装部署 HDFS Sink 5.1 了解Flume 1) Flume概述 Flume是Cloudera提供的一个高可用，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源（source）收集过来，再将收集到的数据送到指定的目的阅读全文

posted @ 2021-10-25 20:26 silvan_happy 阅读(1051) 评论(0) 推荐(0)

2021年10月19日

第四章 Hive安装及配置

摘要： 4.1环境准备 4.1.1 启动Hadoop 4.1.2 安装MySQL 1、安装包将安装包复制到目录/usr/local/，当前使用版本如下： mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz 解压： #tar xzvf mysql-5.7.22-linux- 阅读全文

posted @ 2021-10-19 20:57 silvan_happy 阅读(1740) 评论(0) 推荐(0)

2021年10月14日

第3章 HBase完全分布式集群搭建

摘要：主要内容： HBase简介 Hadoop、HBase和Hive三者关系启动Hadoop集群 ZooKeeper集群的部署 HBase集群的部署 3.-1 HBase简介数据模型概述： 1) HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳 2) 每个值是一个阅读全文

posted @ 2021-10-14 20:12 silvan_happy 阅读(1128) 评论(0) 推荐(0)

2021年10月13日

第2章大数据处理架构Hadoop（二）

摘要： 2.4 分布式文件系统HDFS及其命令 2.4.1 分布式文件系统与HDFS（Distributed File System）数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件阅读全文

posted @ 2021-10-13 20:35 silvan_happy 阅读(228) 评论(0) 推荐(0)

第2章大数据处理架构Hadoop （一）

摘要：第2章大数据处理架构Hadoop In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log,they didn’t try to grow a larger ox. We shoul 阅读全文

posted @ 2021-10-13 19:48 silvan_happy 阅读(523) 评论(0) 推荐(0)

2021年3月10日

正则表达式的常用操作符

摘要：操作符说明实例 . 表示任何单个字符 [] 字符集，对单个字符给出取值范围 [abc]表示a、b、c，[a-z]表示a到z单个字符 [^ ] 非字符集，对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc*表示 ab、abc、abcc、abccc 阅读全文

posted @ 2021-03-10 21:20 silvan_happy 阅读(199) 评论(0) 推荐(0)

python爬取大学排名

摘要：来自北理嵩老师的案例，之前嵩老师的网址我没办法访问，新的网址爬虫不成功，所以改了一下。import requestsfrom bs4 import BeautifulSoupimport bs4#通过URL信息从网页爬取数据def getHTMLText(url): try: r = request 阅读全文

posted @ 2021-03-10 20:38 silvan_happy 阅读(404) 评论(0) 推荐(0)

2020年9月24日

MapReduce执行卡在Running job不动

摘要： hadoop启动后一切正常，执行mr任务时卡住如图：开启hadoop详细日志会有如下情况（不会开启的跳过），一直在连接：通过查看日志发现提示如下错误： 2016-03-15 15:51:01,740 ERROR org.apache.hadoop.yarn.server.resourceman 阅读全文

posted @ 2020-09-24 17:11 silvan_happy 阅读(1912) 评论(0) 推荐(0)

2020年2月8日

HiveQL：数据查询

摘要：实验目的基本的select操作基于分区的查询 Join查询硬件环境要求实验环境 PC机至少4G内存，硬盘至少预留50G空间。软件要求已安装并启动Hadoop 已安装并启动Hive 实验要求应用基本的Select 操作应用基于分区的查询应用Join进行查询实验步骤第7章 Hive 阅读全文

posted @ 2020-02-08 09:33 silvan_happy 阅读(661) 评论(0) 推荐(0)

zhouyeqin

公告