摘要: Spark架构与运行流程 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在 阅读全文
posted @ 2021-03-12 17:03 1After909 阅读(250) 评论(0) 推荐(0) 编辑
摘要: Sqoop安装与使用 使用sqoop进行将Hive词频统计的结果数据传输到Mysql中。 使用测试文件: 1. mysql准备接受数据的数据库与表 service mysql start #启动mysql服务 mysql -u root -p #登陆shell界面 show databases; c 阅读全文
posted @ 2020-12-12 20:22 1After909 阅读(66) 评论(0) 推荐(0) 编辑
摘要: Hive 操作与应用 词频统计 一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wc cd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop,启动hive start-all.sh j 阅读全文
posted @ 2020-12-06 21:11 1After909 阅读(96) 评论(0) 推荐(0) 编辑
摘要: Hbase操作与编程使用 使用HBase Shell命令 或 使用HBase Java API完成 1. 任务: 点击展开代码列表 hbase> status # 查看运行状态 hbase> create 'user','info' # 创建表 hbase> list # 查看所有表 hbase> 阅读全文
posted @ 2020-11-22 17:59 1After909 阅读(380) 评论(0) 推荐(0) 编辑
摘要: Hadoop使用实例 1. 下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 wget http://www.gutenberg.org/files/83/83-0.txt 2. 编写map与reduce函数 mapper.py #!/usr/bin/env python import sys 阅读全文
posted @ 2020-11-12 13:02 1After909 阅读(128) 评论(0) 推荐(0) 编辑
摘要: HDFS 操作命令 本地文件系统创建一个文件,输入带姓名学号信息。 vim myinfo.txt 查看新建文件所在目录 pwd 查看新建文件内容 cat myinfo.txt 将此文件上传到HDFS文件系统上的用户目录 hdfs dfs -put ~/myinfo.txt input HDFS上查看 阅读全文
posted @ 2020-10-24 14:34 1After909 阅读(87) 评论(0) 推荐(0) 编辑
摘要: Hadoop安装 与 HDFS体系结构 1. 用自己的图,描述HDFS体系结构、工作原理与流程。 HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以 阅读全文
posted @ 2020-10-20 22:10 1After909 阅读(136) 评论(0) 推荐(0) 编辑
摘要: Linux和MySQL的安装与基本操作 1. 熟悉 Linux系统的使用 2. 在Ubuntu下安装MySQL及其常用操作 2.1 安装MySQL 使用以下命令即可进行mysql安装: sudo apt-get update #更新软件源 sudo apt-get install mysql-ser 阅读全文
posted @ 2020-10-10 20:54 1After909 阅读(86) 评论(0) 推荐(0) 编辑
摘要: Hadoop演进与Hadoop生态 一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于A 阅读全文
posted @ 2020-09-19 21:40 1After909 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 大数据第一次作业 微信、微博、小视频每天产生的数据量与数据类型 微信每个月有10.825亿位用户保持活跃,每个月有6300万位55岁以上的用户保持活跃。此外,每天有450亿次信息发送出,有4.1亿次音视频呼叫成功。 微博2012年的时候注册用户就已经超过2.5亿,每天有近1亿的微博内容产生。 抖音小 阅读全文
posted @ 2020-09-12 17:36 1After909 阅读(125) 评论(0) 推荐(0) 编辑