文章分类 - 大数据
摘要:1. 内部表 内部表与关系型数据库中的表相同 2. 外部表 3.
阅读全文
摘要:1. HBase的特性 1. HBase没有数据类型 2. HBase不支持创建索引 2. Phoenix的作用 1. 为了解决HBase上面的问题 2. 他支持DDL,DML,支持事务,支持二级索引,遵循ANSI SQL标准 3. Phoenix的安装 1. 下载Phoenix https://d
阅读全文
摘要:1. 多版本version 从HBase0.96之后,版本值改为1,之前是3. 1. 如果需要使用多版本数据,如何配置? 1. 修改表结构 alter 'yangjianbo',{NAME=>'info',VERSIONS=>'3'} 2. 插入多版本数据,同一rowkey put 'yangjia
阅读全文
摘要:1. HBase的写操作步骤 1. 客户端执行put操作,HBase先将数据写入WAL文件,WAL文件是顺序写入的,所有新写入的日志被写入到WAL文件的末尾 2. WAL文件写入完成后,HBase将数据写入MemStore,当MemStore出现故障,可以根据WAL文件恢复 3. 当MemStore
阅读全文
摘要:1. 安装模式 1. 本地模式 仅在一台计算机上安装Spark 2. 集群模式 Standalone 独立部署模式,该模式下系统采用Spark自带的简单集群管理器,不依赖第三方提供的集群管理器 Hadoop Yarn 使用hadoop2.0以上版本中的Yarn充当资源管理器,要确保hadoop安装好
阅读全文
摘要:1. HUE安装 1. 官网下载 git clone https://github.com/cloudera/hue.git 2. 升级python2.6.6到python2.7.6 3. 安装依赖包 yum install -y gcc gcc-c++ libxml2-devel libxslt-
阅读全文
摘要:1. 本地客户端 直接输入hive 2. 使用HiveServer2/beeline 1. 修改hadoop集群的hdfs-site.xml <!--是否开启web操作hdfs--> <property> <name>dfs.webhdfs.enabled</name> <value>true</v
阅读全文
摘要:1. HBase的基本概念与体系结构 HBase是一个分布式的,面向列的开源数据库,底层存储是HDFS。它适合非结构化数据存储 1. 基本概念 概念 说明 命名空间 可以理解为关系型数据库的库 表 对应于关系型数据库的表 行 由一个rowkey和多个列族组成,一行一个rowkey,用作唯一标识 列族
阅读全文
摘要:1. Hive简介 1. Hive的产生 Hadoop体系将数据存入HDFS中,并且通过MapReduce的Java程序分析和处理数据。但是对于进行数据分析的人来说不方便,于是Hive就产生了。 起源于FaceBook,后贡献给了Apache 2. Hive的作用 在Hive中执行的SQL语句被转换
阅读全文
摘要:1. MapReduce程序的概念 MapReduce是一种分布式计算模型,一台服务器不能完成计算,就使用多台服务器一起执行计算,核心思想先拆分,再合并 MapReduce是一种离线数据处理模型,不适用进行实时的流式计算 2. MapReduce WordCount 1. 执行wordcount c
阅读全文
摘要:1. HDFS基本命令 1. 查看帮助 hadoop fs -help 2. 创建目录 hadoop fs -mkdir /test 3. 查看文件列表 hadoop fs -ls /test hadoop fs -ls -R /test 查看子目录 hadoop fs -lsr /test 上面的
阅读全文
摘要:1. HDFS的特点 1. 适用的场景 1. 专为存储大文件设计,支持GB级别大小的文件,能够提供很大的数据带宽并且能够在集群中拓展到成百上千个节点;一个实例能够支持千万数量级别的文件 2. 适用于流式的数据访问,保证高吞吐量 3. 容错性 4. 支持一次写入多次读取的模型,而且写入过程文件不会经常
阅读全文
摘要:1. 大数据 结构化数据: 数据库数据 半结构化数据: html,xml,json 非结构化数据: 日志,没有元数据 搜索引擎: 搜索组件 索引组件 蜘蛛程序 存储 分析处理 HDFS+MapReduce=Hadoop 批处理 2. Hadoop Distribution 分发版本 Cloudera
阅读全文

浙公网安备 33010602011771号