伐木工熊大 - 博客园

2025年2月10日

2025/2/10

摘要： HBase是一个基于Hadoop的分布式列存储数据库，适合存储大规模稀疏数据。本篇博客将介绍如何使用HBase存储和查询数据。HBase架构：HMaster和HRegionServer的角色。HBase操作：创建表、插入数据、查询数据。示例代码： # 启动HBase Shellhbase shell 阅读全文

posted @ 2025-02-10 21:35 伐木工熊大阅读(18) 评论(0) 推荐(0)

2025年2月9日

2025/2/9

摘要： Spark支持多种语言，其中Scala是其原生语言之一。通过Scala，可以更高效地编写Spark程序。本篇博客将展示如何使用Scala和Spark进行数据分析。RDD操作：创建和处理RDD。DataFrame和Dataset：高级API的使用。机器学习：使用Spark MLlib进行简单分类。示例阅读全文

posted @ 2025-02-09 17:10 伐木工熊大阅读(22) 评论(0) 推荐(0)

2025年2月8日

2025/2/8

摘要： Spark是一个高性能的分布式计算框架，支持内存计算，适合大规模数据处理和机器学习。本篇博客将介绍如何使用Spark进行数据处理。Spark架构：Driver、Executor和Task的角色。Spark操作：创建RDD、DataFrame和Dataset。示例代码： import org.apac 阅读全文

posted @ 2025-02-08 23:52 伐木工熊大阅读(18) 评论(0) 推荐(0)

2025年2月7日

2025/2/7

摘要： Scala可以通过JDBC连接Hive，执行Hive SQL查询并处理结果。本篇博客将展示如何使用Scala与Hive进行交互。JDBC连接：配置Hive的JDBC连接。执行查询：通过Scala执行Hive SQL。示例代码： import java.sql.{Connection, DriverM 阅读全文

posted @ 2025-02-07 23:38 伐木工熊大阅读(28) 评论(0) 推荐(0)

2025年2月6日

2025/2/6

摘要： Hive是一个基于Hadoop的数据仓库工具，用于数据的提取、转换和加载（ETL）。它支持SQL-like语言（HiveQL），使得数据查询更加方便。Hive架构：Hive的元数据存储和执行引擎。Hive操作：创建表、插入数据、查询数据。示例代码： -- 创建表CREATE TABLE employ 阅读全文

posted @ 2025-02-06 17:12 伐木工熊大阅读(11) 评论(0) 推荐(0)

2025年2月5日

2025/2/5

摘要： Scala可以通过编写MapReduce程序与Hadoop集成，实现高效的数据处理。本篇博客将展示如何使用Scala编写一个简单的MapReduce程序来统计单词出现的次数。MapReduce程序：编写Mapper和Reducer。运行MapReduce任务：将Scala程序打包并提交到Hadoop 阅读全文

posted @ 2025-02-05 21:09 伐木工熊大阅读(14) 评论(0) 推荐(0)

2025年2月4日

2025/2/4

摘要： Scala可以通过编写MapReduce程序与Hadoop集成，实现高效的数据处理。本篇博客将展示如何使用Scala编写一个简单的MapReduce程序来统计单词出现的次数。MapReduce程序：编写Mapper和Reducer。运行MapReduce任务：将Scala程序打包并提交到Hadoop 阅读全文

posted @ 2025-02-04 17:05 伐木工熊大阅读(15) 评论(0) 推荐(0)

2025年2月3日

2025/2/3

摘要： HDFS（Hadoop Distributed File System）是Hadoop的核心组件之一，用于存储大规模数据集。本篇博客将介绍如何使用HDFS进行数据存储和管理。HDFS架构：NameNode和DataNode的角色。HDFS操作：上传、下载、查看文件。示例代码： # 查看HDFS中的文阅读全文

posted @ 2025-02-03 13:41 伐木工熊大阅读(13) 评论(0) 推荐(0)

2025年2月2日

2025/2/2

摘要： Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。本篇博客将介绍如何在本地搭建Hadoop单机模式环境。安装Hadoop：下载并解压Hadoop。配置Hadoop：配置core-site.xml和hdfs-site.xml。启动Hadoop：启动HDFS和YARN服务。示例代码：下载Ha 阅读全文

posted @ 2025-02-02 19:58 伐木工熊大阅读(14) 评论(0) 推荐(0)

2025年2月1日

2025/2/1

摘要： Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。Scala可以通过编写MapReduce程序与Hadoop集成，实现高效的数据处理。Hadoop环境搭建：安装Hadoop并配置单机模式。Scala编写MapReduce程序：使用Hadoop的API编写MapReduce任务。示例代码：阅读全文

posted @ 2025-02-01 14:31 伐木工熊大阅读(15) 评论(0) 推荐(0)

zhenaifen

公告