博客园 - a咕噜咕噜
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=165972
2023-06-02T07:40:10Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
feed.cnblogs.com
https://www.cnblogs.com/codecodee/p/16285475.html
Kafka的安装 - a咕噜咕噜
安装sbt 1.下载并解压至/usr/local 赋予权限并将bin目录下的sbt-launch.jar复制到sbt 安装目录下创建shell脚本文件,启动sbt 增加可执行权限,并查看sbt版本信息 Kafka的安装 解压至/usr/local,改名为kafka并赋予权限 打开终端,启动Zooke
2022-06-02T05:49:00Z
2022-06-02T05:49:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】安装sbt 1.下载并解压至/usr/local 赋予权限并将bin目录下的sbt-launch.jar复制到sbt 安装目录下创建shell脚本文件,启动sbt 增加可执行权限,并查看sbt版本信息 Kafka的安装 解压至/usr/local,改名为kafka并赋予权限 打开终端,启动Zooke <a href="https://www.cnblogs.com/codecodee/p/16285475.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/16284539.html
安装flume - a咕噜咕噜
一、安装flume 1.解压安装包 切换到解压路径下,将解压的文件名改为flume,简化操作: 2.配置环境变量 添加如下代码,JAVA_HOME已经设置的按照之前的设置即可: 修改flume-env.sh配置文件: 添加下面一行,用于设置JAVA_HOME变量: 由于会与安装的hbase有冲突,将
2022-05-18T06:22:00Z
2022-05-18T06:22:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】一、安装flume 1.解压安装包 切换到解压路径下,将解压的文件名改为flume,简化操作: 2.配置环境变量 添加如下代码,JAVA_HOME已经设置的按照之前的设置即可: 修改flume-env.sh配置文件: 添加下面一行,用于设置JAVA_HOME变量: 由于会与安装的hbase有冲突,将 <a href="https://www.cnblogs.com/codecodee/p/16284539.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/16241702.html
DataFrame - a咕噜咕噜
读取本地json文件 读取本地文本文件(///表示本地文件) 读取Hadoop json文件,文件路径默认是hadoop上的路径 people.json文件创建一个DataFrame,并保存到另一个json文件中,再从中选取一个列保存到另一个文本文件中,再次读取json文件 进入mysql创数据库再
2022-05-07T06:41:00Z
2022-05-07T06:41:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】读取本地json文件 读取本地文本文件(///表示本地文件) 读取Hadoop json文件,文件路径默认是hadoop上的路径 people.json文件创建一个DataFrame,并保存到另一个json文件中,再从中选取一个列保存到另一个文本文件中,再次读取json文件 进入mysql创数据库再 <a href="https://www.cnblogs.com/codecodee/p/16241702.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15984863.html
10 Spark安装以及命令使用方法介绍 - a咕噜咕噜
1.下载压缩文件并解压 2.修改文件名,赋予权限 3.修改Spark的配置文件spark-env.sh 编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息: 有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDF
2022-03-09T15:08:00Z
2022-03-09T15:08:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】1.下载压缩文件并解压 2.修改文件名,赋予权限 3.修改Spark的配置文件spark-env.sh 编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息: 有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDF <a href="https://www.cnblogs.com/codecodee/p/15984863.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15685072.html
09 Hive安装与配置 - a咕噜咕噜
一、hive下载 1.下载并解压hive源程序,重命名,权限 hive下载官网:http://www.apache.org/dyn/closer.cgi/hive/ sudo tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local #解压到/us
2021-12-13T12:21:00Z
2021-12-13T12:21:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】一、hive下载 1.下载并解压hive源程序,重命名,权限 hive下载官网:http://www.apache.org/dyn/closer.cgi/hive/ sudo tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local #解压到/us <a href="https://www.cnblogs.com/codecodee/p/15685072.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15594807.html
08 分布式计算MapReduce--词频统计 - a咕噜咕噜
WordCount程序任务: 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数), 并按照单词字母顺序排序, 每个单词和其频数占一行,单词和频数之间有间隔 1.用你最熟悉的编程环境,编写非分布式的词频统计程序。 读文件 分词(text.split列表
2021-11-23T11:32:00Z
2021-11-23T11:32:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】WordCount程序任务: 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数), 并按照单词字母顺序排序, 每个单词和其频数占一行,单词和频数之间有间隔 1.用你最熟悉的编程环境,编写非分布式的词频统计程序。 读文件 分词(text.split列表 <a href="https://www.cnblogs.com/codecodee/p/15594807.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15529885.html
07 HBase操作 - a咕噜咕噜
1.理解HBase表模型及四维坐标:行键、列族、列限定符和时间戳。 表:HBase采用表来组织数据,表由行和列组成,列划分为若干个列族。 行键:每个HBase表都由若干行组成,每个行由行键(row key)来标识。在表里面,每一行代表着一个数据对象。每一行都是由一个行键(Row Key)和一个或者多
2021-11-09T09:06:00Z
2021-11-09T09:06:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】1.理解HBase表模型及四维坐标:行键、列族、列限定符和时间戳。 表:HBase采用表来组织数据,表由行和列组成,列划分为若干个列族。 行键:每个HBase表都由若干行组成,每个行由行键(row key)来标识。在表里面,每一行代表着一个数据对象。每一行都是由一个行键(Row Key)和一个或者多 <a href="https://www.cnblogs.com/codecodee/p/15529885.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15501133.html
06 HBase安装与伪分布式配置 - a咕噜咕噜
1.下载压缩文件 2.解压 3.修改文件夹名 4.修改文件夹权限 5.配置环境变量 激活配置文件 6.伪分布式配置文件 7.启动HDFS,启动Hbase 8.进入shell界面 9.停止Hbase,停止HDFS运行
2021-11-03T01:20:00Z
2021-11-03T01:20:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】1.下载压缩文件 2.解压 3.修改文件夹名 4.修改文件夹权限 5.配置环境变量 激活配置文件 6.伪分布式配置文件 7.启动HDFS,启动Hbase 8.进入shell界面 9.停止Hbase,停止HDFS运行 <a href="https://www.cnblogs.com/codecodee/p/15501133.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15498599.html
05 HDFS Java API应用实例 - a咕噜咕噜
一、在Ubuntu系统中安装和配置Eclipse 二、利用hadoop 的java api,向HDFS写一个文件。写入内容含自己的姓名学号信息。 三、从HDFS读取一个文件的内容并显示。
2021-11-02T05:50:00Z
2021-11-02T05:50:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】一、在Ubuntu系统中安装和配置Eclipse 二、利用hadoop 的java api,向HDFS写一个文件。写入内容含自己的姓名学号信息。 三、从HDFS读取一个文件的内容并显示。 <a href="https://www.cnblogs.com/codecodee/p/15498599.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15426985.html
04 Hadoop思想与原理 - a咕噜咕噜
1.用图与自己的话,简要描述Hadoop起源与发展阶段。 从与谷歌系统的关系,关键时间节点,1.x,2.x与3.x的区别,不同公司发行版本等方面来讲。 Hadoop之父: 1. Hadoop是一个对海量数据存储和海量数据分析计算的分布式系统。它最早起源于lucene下的Nutch。 2. 03、04
2021-10-19T15:13:00Z
2021-10-19T15:13:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】1.用图与自己的话,简要描述Hadoop起源与发展阶段。 从与谷歌系统的关系,关键时间节点,1.x,2.x与3.x的区别,不同公司发行版本等方面来讲。 Hadoop之父: 1. Hadoop是一个对海量数据存储和海量数据分析计算的分布式系统。它最早起源于lucene下的Nutch。 2. 03、04 <a href="https://www.cnblogs.com/codecodee/p/15426985.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15306333.html
03 Linux与Hadoop操作实验 - a咕噜咕噜
(一)熟悉常用的Linux操作 cd命令:切换目录 (1)切换到目录 /usr/local (2)去到目前的上层目录 (3)回到自己的主文件夹 ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 (5)进入/tmp目录,创建一个名为a的目录,并查看有多少目录存在 mkdir命令:新建新目录
2021-09-18T15:10:00Z
2021-09-18T15:10:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】(一)熟悉常用的Linux操作 cd命令:切换目录 (1)切换到目录 /usr/local (2)去到目前的上层目录 (3)回到自己的主文件夹 ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 (5)进入/tmp目录,创建一个名为a的目录,并查看有多少目录存在 mkdir命令:新建新目录 <a href="https://www.cnblogs.com/codecodee/p/15306333.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15306189.html
02 环境搭建 - a咕噜咕噜
2.安装Linux操作系统: 3.安装关系型数据库MySQL:
2021-09-17T12:28:00Z
2021-09-17T12:28:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】2.安装Linux操作系统: 3.安装关系型数据库MySQL: <a href="https://www.cnblogs.com/codecodee/p/15306189.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/codecodee/p/15235575.html
01大数据概述 - a咕噜咕噜
一、为什么产生大数据技术 ? 大数据是网络信息时代的客观存在,其产生的意义在于对这些数据进行专业存储和处理,并从中挖掘和提取所需要的知识和信息。技术突破来源于实际的产品需求,如果将大数据比作一种产业,那么降低存储成本,提升运行速度和计算速度,以及对数据进行多维度的分析加工,实现并提升数据的价值,这是
2021-09-06T12:40:00Z
2021-09-06T12:40:00Z
a咕噜咕噜
https://www.cnblogs.com/codecodee/
【摘要】一、为什么产生大数据技术 ? 大数据是网络信息时代的客观存在,其产生的意义在于对这些数据进行专业存储和处理,并从中挖掘和提取所需要的知识和信息。技术突破来源于实际的产品需求,如果将大数据比作一种产业,那么降低存储成本,提升运行速度和计算速度,以及对数据进行多维度的分析加工,实现并提升数据的价值,这是 <a href="https://www.cnblogs.com/codecodee/p/15235575.html" target="_blank">阅读全文</a>