会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zhouyeqin
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
18
下一页
2021年10月30日
第六章 Kafka消息队列
摘要: 主要内容: Kafka概述 Kafka集群部署 Kafka与Flume比较 6.1 Kafka概述 6.1.1 消息队列 消息系统负责将数据从一个应用程序传输到另一个应用程序,因此应用程序可以专注于数据本身,而不用担心如何共享它。 消息系统有两种消息模式可用 点对点消息系统 发布 - 订阅(pub-
阅读全文
posted @ 2021-10-30 10:41 silvan_happy
阅读(335)
评论(0)
推荐(0)
2021年10月25日
第五章 Flume日志采集系统
摘要: 主要内容: 了解Flume Flume安装部署 HDFS Sink 5.1 了解Flume 1) Flume概述 Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的
阅读全文
posted @ 2021-10-25 20:26 silvan_happy
阅读(1045)
评论(0)
推荐(0)
2021年10月19日
第四章 Hive安装及配置
摘要: 4.1环境准备 4.1.1 启动Hadoop 4.1.2 安装MySQL 1、安装包 将安装包复制到目录/usr/local/,当前使用版本如下: mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz 解压: #tar xzvf mysql-5.7.22-linux-
阅读全文
posted @ 2021-10-19 20:57 silvan_happy
阅读(1723)
评论(0)
推荐(0)
2021年10月14日
第3章 HBase完全分布式集群搭建
摘要: 主要内容: HBase简介 Hadoop、HBase和Hive三者关系 启动Hadoop集群 ZooKeeper集群的部署 HBase集群的部署 3.-1 HBase简介 数据模型概述: 1) HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳 2) 每个值是一个
阅读全文
posted @ 2021-10-14 20:12 silvan_happy
阅读(1071)
评论(0)
推荐(0)
2021年10月13日
第2章 大数据处理架构Hadoop(二)
摘要: 2.4 分布式文件系统HDFS及其命令 2.4.1 分布式文件系统与HDFS(Distributed File System) 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件
阅读全文
posted @ 2021-10-13 20:35 silvan_happy
阅读(228)
评论(0)
推荐(0)
第2章 大数据处理架构Hadoop (一)
摘要: 第2章 大数据处理架构Hadoop In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log,they didn’t try to grow a larger ox. We shoul
阅读全文
posted @ 2021-10-13 19:48 silvan_happy
阅读(519)
评论(0)
推荐(0)
2021年3月10日
正则表达式的常用操作符
摘要: 操作符 说明 实例 . 表示任何单个字符 [] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a-z]表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc*表示 ab、abc、abcc、abccc
阅读全文
posted @ 2021-03-10 21:20 silvan_happy
阅读(193)
评论(0)
推荐(0)
python爬取大学排名
摘要: 来自北理嵩老师的案例,之前嵩老师的网址我没办法访问,新的网址爬虫不成功,所以改了一下。import requestsfrom bs4 import BeautifulSoupimport bs4#通过URL信息从网页爬取数据def getHTMLText(url): try: r = request
阅读全文
posted @ 2021-03-10 20:38 silvan_happy
阅读(404)
评论(0)
推荐(0)
2020年9月24日
MapReduce执行卡在Running job不动
摘要: hadoop启动后一切正常,执行mr任务时卡住 如图: 开启hadoop详细日志会有如下情况(不会开启的跳过),一直在连接: 通过查看日志发现提示如下错误: 2016-03-15 15:51:01,740 ERROR org.apache.hadoop.yarn.server.resourceman
阅读全文
posted @ 2020-09-24 17:11 silvan_happy
阅读(1894)
评论(0)
推荐(0)
2020年2月8日
HiveQL:数据查询
摘要: 实验目的 基本的select操作 基于分区的查询 Join查询 硬件环境要求 实验环境 PC机至少4G内存,硬盘至少预留50G空间。 软件要求 已安装并启动Hadoop 已安装并启动Hive 实验要求 应用基本的Select 操作 应用基于分区的查询 应用Join进行查询 实验步骤 第7章 Hive
阅读全文
posted @ 2020-02-08 09:33 silvan_happy
阅读(661)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
18
下一页
公告