BigData - 随笔分类(第2页) - 末

Kafka简介及使用

摘要：一、Kafka概述二、kafka是什么？三、为什么要用消息队列四、kafka架构设计 Kafka介绍 Kafka架构五、kafka集群安装部署六、Kafka命令行操作七、Kafka简单API 1、Producer1类 kafka生产者API 接口回调 2、Producer2类 kafka 阅读全文

posted @ 2018-12-15 23:52 末阅读(1302) 评论(0) 推荐(0)

Hbase优化方案

摘要：1、预分区设计附：splits.txt 2、rowkey设计 3、HBase优化阅读全文

posted @ 2018-12-15 23:27 末阅读(230) 评论(0) 推荐(0)

HBase-MR

摘要：一、需求1：对一张表的rowkey进行计数二、需求2：本地数据导入到HBase中附：love.tsv 三、需求3：将HBase中love表进行指定列的筛选然后倒入到lovemr表 1、ReadLoveMapper类 2、WriteLoveReducer类 3、LoveDriver类四、需求4：阅读全文

posted @ 2018-12-09 20:49 末阅读(380) 评论(0) 推荐(0)

HBase简单API

摘要：一、使用IDEA的maven工程，工程结构如下：二、maven的依赖pom.xml文件三、hbase-site.xml，在HBase集群的{HBASE_HOME}/conf目录下下载到本地，放到resources资源目录下四、core-site.xml，在Hadoop集群的{HADOOP_HO 阅读全文

posted @ 2018-12-09 16:02 末阅读(1301) 评论(2) 推荐(0)

HBase读写流程

摘要：一、HBase读取数据流程二、HBase读取数据详细流程三、HBase写数据流程阅读全文

posted @ 2018-12-09 15:43 末阅读(213) 评论(0) 推荐(0)

HBase-shell操作

摘要：HBase结构阅读全文

posted @ 2018-12-09 14:51 末阅读(209) 评论(0) 推荐(0)

HBase简介及集群安装

摘要：HBase架构 Hadoop和ZooKeeper依赖阅读全文

posted @ 2018-12-09 14:19 末阅读(351) 评论(0) 推荐(0)

Azkaban简介及使用

摘要：一、Azkaban概述 Azkaban是一个分布式工作流管理器，在LinkedIn上实现，以解决Hadoop作业依赖性问题。我们有需要按顺序运行的工作，从ETL工作到数据分析产品。特点： 1）给用户提供了一个非常友好的可视化界面->web界面 2）非常方便的上传工作流-》打成压缩包 3）设置任务间的关系 4）权限设置-》删库到跑路 ... 阅读全文

posted @ 2018-12-01 19:28 末阅读(2981) 评论(0) 推荐(0)

Sqoop简介及使用

摘要：一、Sqoop概述 1）官网 http://sqoop.apache.org/ 2）场景传统型缺点，分布式存储。把传统型数据库数据迁移。 Apache Sqoop（TM）是一种用于在Apache Hadoop和结构化数据存储（如关系数据库）之间高效传输批量数据的工具。二、Sqoop安装部署 1）下载安装包 2）解压 tar -... 阅读全文

posted @ 2018-12-01 14:59 末阅读(1078) 评论(0) 推荐(0)

Flume简介及使用

摘要：一、Flume概述二、Flume安装部署三、Flume监听端口 1、安装telnet 2、写配置文件 flumejob_telnet.conf 放置在flume/conf/下 3、启动 4、发送数据 5、查看四、实时的采集文件到HDFS 1、写配置文件 flumejob_hdfs.conf 2 阅读全文

posted @ 2018-11-25 20:53 末阅读(1616) 评论(0) 推荐(0)

Hive简介及使用

摘要：一、Hive简介 Hive架构二、Hive安装三、Hive数据类型附件1：数据员工表 emp.txt 四、DML数据操作附件2：数据部门表 dept.txt 五、查询与函数六、join和分桶附件3：数据地址表 location.txt 附件4：数据分桶数据表 emp_b.txt 七、Hi 阅读全文

posted @ 2018-11-25 18:01 末阅读(1111) 评论(0) 推荐(0)

CentOS7 安装 MySQL

摘要：1、首先检查 MySQL 是否已安装 2、MySQL 依赖 libaio，所以先要安装 libaio 3、下载 MySQL Yum Repository 注意：如果提示-bash: wget: 未找到命令，请先执行 yum install wget 安装 wget 4、添加 MySQL Yum Re 阅读全文

posted @ 2018-11-25 16:29 末阅读(3703) 评论(0) 推荐(0)

Zookeeper简介及使用

摘要：一、Zookeeper简介二、Zookeeper工作机制 1、Zookeeper工作机制 2、Zookeeper目录结构 3、Zookeeper选举机制三、Zookeeper简单客户端API 四、Zoopeeper监听API 1、监听单节点内容 2、监听目录五、Zookeeper动态上下线感知阅读全文

posted @ 2018-11-25 11:30 末阅读(26273) 评论(1) 推荐(5)

Hadoop总结

摘要：一、linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。，在加上用户空间的应用程序之后，成为Linux操作系统。应用：长时间的运行编写的程序代码，可以安装在各种计算机硬件设备中，如：手机、平板电脑、路由器等安卓最底层运行在linu... 阅读全文

posted @ 2018-11-04 23:01 末阅读(662) 评论(0) 推荐(0)

Hadoop优化

摘要：1、mr程序的效率瓶颈功能：分布式离线计算计算机性能：CPU、内存、磁盘、网络 I/O操作优化（1）数据倾斜（代码优化）（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（combineTextInputFomrat小文件合并）（5）不可分块的超大文件（不断的溢写）... 阅读全文

posted @ 2018-11-04 22:59 末阅读(310) 评论(0) 推荐(0)

Hadoop压缩

摘要：一、Hadoop压缩简介二、Hadoop压缩使用方式 1.Mapper类 2.Reducer类 3.Driver类 4.输入文件words.txt 5.输出文件的名字分别如下三、自定义压缩工具 1.自定义压缩工具类 2.输入文件名 3.输出文件名阅读全文

posted @ 2018-11-04 18:21 末阅读(457) 评论(0) 推荐(0)

mapjoin与reducejoin

摘要：一、mapjoin 1.Mapper类 2.Driver类 3.输入文件 4.输出文件part-m-00000 二、reducejoin 1.Mapper类 2.Reducer类 3.封装类 4.Driver类 5.输入文件 6.输出文件part-r-00000 阅读全文

posted @ 2018-11-04 17:59 末阅读(263) 评论(0) 推荐(0)

MapReduce自定义InputFormat和OutputFormat

摘要：一、自定义InputFormat 1.Mapper类 2.Reducer类 3.自定义InputFormat类 4.自定义RecordReader类 5.Driver类 6.输入小文件 7.输出文件part-r-00000 二、自定义OutputFormat 需求:过滤日志文件把包含main的放在阅读全文

posted @ 2018-11-04 15:57 末阅读(1029) 评论(0) 推荐(0)

MapReduce辅助排序

摘要：1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.自定义排序分组类 6.Driver类 7.mr输入文件order.java 8.输出文件阅读全文

posted @ 2018-11-04 15:13 末阅读(269) 评论(0) 推荐(0)

MapReduce分区和排序

摘要：一、排序二、分区和排序实例 1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.Driver类 6.输入的文件part-r-00000 7.如果第5步Driver类中的红色部分去掉，则输出全局排序后的文件part-r-00000 8.如果第5步Driver类中的红色部分不去阅读全文

posted @ 2018-10-26 00:15 末阅读(1563) 评论(0) 推荐(0)

随笔分类 - BigData