大数据 - 文章分类 - 奋斗史

摘要：1. 内部表内部表与关系型数据库中的表相同 2. 外部表 3. 阅读全文

posted @ 2022-07-14 09:34 奋斗史阅读(34) 评论(0) 推荐(0)

摘要：1. HBase的特性 1. HBase没有数据类型 2. HBase不支持创建索引 2. Phoenix的作用 1. 为了解决HBase上面的问题 2. 他支持DDL，DML，支持事务，支持二级索引，遵循ANSI SQL标准 3. Phoenix的安装 1. 下载Phoenix https://d 阅读全文

posted @ 2022-07-13 15:14 奋斗史阅读(62) 评论(0) 推荐(0)

Hadoop之HBase的高级功能

摘要：1. 多版本version 从HBase0.96之后，版本值改为1，之前是3. 1. 如果需要使用多版本数据，如何配置？ 1. 修改表结构 alter 'yangjianbo',{NAME=>'info',VERSIONS=>'3'} 2. 插入多版本数据，同一rowkey put 'yangjia 阅读全文

posted @ 2022-07-11 16:23 奋斗史阅读(296) 评论(0) 推荐(0)

Hadoop之HBase原理

摘要：1. HBase的写操作步骤 1. 客户端执行put操作，HBase先将数据写入WAL文件，WAL文件是顺序写入的，所有新写入的日志被写入到WAL文件的末尾 2. WAL文件写入完成后，HBase将数据写入MemStore，当MemStore出现故障，可以根据WAL文件恢复 3. 当MemStore 阅读全文

posted @ 2022-07-08 11:36 奋斗史阅读(60) 评论(0) 推荐(0)

Hadoop之Spark集群安装配置

摘要：1. 安装模式 1. 本地模式仅在一台计算机上安装Spark 2. 集群模式 Standalone 独立部署模式，该模式下系统采用Spark自带的简单集群管理器，不依赖第三方提供的集群管理器 Hadoop Yarn 使用hadoop2.0以上版本中的Yarn充当资源管理器，要确保hadoop安装好阅读全文

posted @ 2022-07-05 15:42 奋斗史阅读(529) 评论(0) 推荐(0)

HUE的安装配置

摘要：1. HUE安装 1. 官网下载 git clone https://github.com/cloudera/hue.git 2. 升级python2.6.6到python2.7.6 3. 安装依赖包 yum install -y gcc gcc-c++ libxml2-devel libxslt- 阅读全文

posted @ 2022-06-29 13:30 奋斗史阅读(648) 评论(0) 推荐(0)

Hadoop之Hive的连接方式

摘要：1. 本地客户端直接输入hive 2. 使用HiveServer2/beeline 1. 修改hadoop集群的hdfs-site.xml  <property> <name>dfs.webhdfs.enabled</name> <value>true</v 阅读全文

posted @ 2022-06-27 16:29 奋斗史阅读(413) 评论(0) 推荐(0)

Kafka之集群安装

摘要：1 阅读全文

posted @ 2022-06-27 14:40 奋斗史阅读(6) 评论(0) 推荐(0)

Hadoop之HBase的安装与应用

摘要：1. HBase的基本概念与体系结构 HBase是一个分布式的，面向列的开源数据库，底层存储是HDFS。它适合非结构化数据存储 1. 基本概念概念说明命名空间可以理解为关系型数据库的库表对应于关系型数据库的表行由一个rowkey和多个列族组成，一行一个rowkey,用作唯一标识列族阅读全文

posted @ 2022-06-27 14:32 奋斗史阅读(208) 评论(0) 推荐(0)

Hadoop之Hive安装与应用

摘要：1. Hive简介 1. Hive的产生 Hadoop体系将数据存入HDFS中，并且通过MapReduce的Java程序分析和处理数据。但是对于进行数据分析的人来说不方便，于是Hive就产生了。起源于FaceBook，后贡献给了Apache 2. Hive的作用在Hive中执行的SQL语句被转换阅读全文

posted @ 2022-06-27 13:50 奋斗史阅读(161) 评论(0) 推荐(0)

Hadoop之MapReduce与Yarn

摘要：1. MapReduce程序的概念 MapReduce是一种分布式计算模型,一台服务器不能完成计算，就使用多台服务器一起执行计算，核心思想先拆分，再合并 MapReduce是一种离线数据处理模型，不适用进行实时的流式计算 2. MapReduce WordCount 1. 执行wordcount c 阅读全文

posted @ 2022-06-24 17:47 奋斗史阅读(22) 评论(0) 推荐(0)

Hadoop之HDFS基本应用

摘要：1. HDFS基本命令 1. 查看帮助 hadoop fs -help 2. 创建目录 hadoop fs -mkdir /test 3. 查看文件列表 hadoop fs -ls /test hadoop fs -ls -R /test 查看子目录 hadoop fs -lsr /test 上面的阅读全文

posted @ 2022-06-24 16:09 奋斗史阅读(330) 评论(0) 推荐(0)

Hadoop之HDFS安装

摘要：1. HDFS的特点 1. 适用的场景 1. 专为存储大文件设计，支持GB级别大小的文件，能够提供很大的数据带宽并且能够在集群中拓展到成百上千个节点；一个实例能够支持千万数量级别的文件 2. 适用于流式的数据访问，保证高吞吐量 3. 容错性 4. 支持一次写入多次读取的模型，而且写入过程文件不会经常阅读全文

posted @ 2022-06-24 16:05 奋斗史阅读(1596) 评论(0) 推荐(0)

hadoop由浅入深

摘要：1. 大数据结构化数据：数据库数据半结构化数据： html,xml,json 非结构化数据：日志，没有元数据搜索引擎：搜索组件索引组件蜘蛛程序存储分析处理 HDFS+MapReduce=Hadoop 批处理 2. Hadoop Distribution 分发版本 Cloudera 阅读全文

posted @ 2019-02-18 09:03 奋斗史阅读(131) 评论(0) 推荐(0)

奋斗吧，加油！

文章分类 - 大数据

公告