a咕噜咕噜 - 博客园

2022年6月2日

摘要：安装sbt 1.下载并解压至/usr/local 赋予权限并将bin目录下的sbt-launch.jar复制到sbt 安装目录下创建shell脚本文件，启动sbt 增加可执行权限，并查看sbt版本信息 Kafka的安装解压至/usr/local，改名为kafka并赋予权限打开终端，启动Zooke 阅读全文

posted @ 2022-06-02 13:49 a咕噜咕噜阅读(380) 评论(0) 推荐(0)

2022年5月18日

安装flume

摘要：一、安装flume 1.解压安装包切换到解压路径下，将解压的文件名改为flume，简化操作： 2.配置环境变量添加如下代码，JAVA_HOME已经设置的按照之前的设置即可：修改flume-env.sh配置文件：添加下面一行，用于设置JAVA_HOME变量：由于会与安装的hbase有冲突，将阅读全文

posted @ 2022-05-18 14:22 a咕噜咕噜阅读(1334) 评论(0) 推荐(0)

2022年5月7日

DataFrame

摘要：读取本地json文件读取本地文本文件（///表示本地文件）读取Hadoop json文件，文件路径默认是hadoop上的路径 people.json文件创建一个DataFrame，并保存到另一个json文件中，再从中选取一个列保存到另一个文本文件中，再次读取json文件进入mysql创数据库再阅读全文

posted @ 2022-05-07 14:41 a咕噜咕噜阅读(259) 评论(0) 推荐(0)

2022年3月9日

10 Spark安装以及命令使用方法介绍

摘要： 1.下载压缩文件并解压 2.修改文件名，赋予权限 3.修改Spark的配置文件spark-env.sh 编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息: 有了上面的配置信息以后，Spark就可以把数据存储到Hadoop分布式文件系统HDF 阅读全文

posted @ 2022-03-09 23:08 a咕噜咕噜阅读(422) 评论(0) 推荐(0)

2021年12月13日

09 Hive安装与配置

摘要：一、hive下载 1.下载并解压hive源程序，重命名，权限 hive下载官网：http://www.apache.org/dyn/closer.cgi/hive/ sudo tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local #解压到/us 阅读全文

posted @ 2021-12-13 20:21 a咕噜咕噜阅读(75) 评论(0) 推荐(0)

2021年11月23日

08 分布式计算MapReduce--词频统计

摘要： WordCount程序任务：程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔 1.用你最熟悉的编程环境，编写非分布式的词频统计程序。读文件分词（text.split列表阅读全文

posted @ 2021-11-23 19:32 a咕噜咕噜阅读(83) 评论(0) 推荐(0)

2021年11月9日

07 HBase操作

摘要： 1.理解HBase表模型及四维坐标：行键、列族、列限定符和时间戳。表：HBase采用表来组织数据，表由行和列组成，列划分为若干个列族。行键：每个HBase表都由若干行组成，每个行由行键（row key）来标识。在表里面，每一行代表着一个数据对象。每一行都是由一个行键（Row Key）和一个或者多阅读全文

posted @ 2021-11-09 17:06 a咕噜咕噜阅读(211) 评论(0) 推荐(0)

2021年11月3日

06 HBase安装与伪分布式配置

摘要： 1.下载压缩文件 2.解压 3.修改文件夹名 4.修改文件夹权限 5.配置环境变量激活配置文件 6.伪分布式配置文件 7.启动HDFS，启动Hbase 8.进入shell界面 9.停止Hbase，停止HDFS运行阅读全文

posted @ 2021-11-03 09:20 a咕噜咕噜阅读(37) 评论(0) 推荐(0)

2021年11月2日

05 HDFS Java API应用实例

摘要：一、在Ubuntu系统中安装和配置Eclipse 二、利用hadoop 的java api，向HDFS写一个文件。写入内容含自己的姓名学号信息。三、从HDFS读取一个文件的内容并显示。阅读全文

posted @ 2021-11-02 13:50 a咕噜咕噜阅读(60) 评论(0) 推荐(0)

2021年10月19日

04 Hadoop思想与原理

摘要： 1.用图与自己的话，简要描述Hadoop起源与发展阶段。从与谷歌系统的关系，关键时间节点，1.x,2.x与3.x的区别，不同公司发行版本等方面来讲。 Hadoop之父： 1. Hadoop是一个对海量数据存储和海量数据分析计算的分布式系统。它最早起源于lucene下的Nutch。 2. 03、04 阅读全文

posted @ 2021-10-19 23:13 a咕噜咕噜阅读(156) 评论(0) 推荐(0)

咕噜咕咕

公告