05 2019 档案
摘要:1 配置 1.1 开发环境: HBase:hbase-1.0.0-cdh5.4.5.tar.gz Hadoop:hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper:zookeeper-3.4.5-cdh5.4.5.tar.gz Spark:spark-2.1.0-bin-h
阅读全文
posted @ 2019-05-30 21:50
左手编程右手诗
摘要:一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of var
阅读全文
posted @ 2019-05-30 16:34
左手编程右手诗
摘要:一. Flink的下载 安装包下载地址:http://flink.apache.org/downloads.html ,选择对应Hadoop的Flink版本下载 Flink 有三种部署模式,分别是 Local、Standalone Cluster 和 Yarn Cluster。 二. Local模式
阅读全文
posted @ 2019-05-28 14:22
左手编程右手诗
摘要:基础命令show databases; # 查看某个数据库use 数据库; # 进入某个数据库show tables; # 展示所有表desc 表名; # 显示表结构show partitions 表名; # 显示表名的分区show create table_name; # 显示创建表的结构 # 建
阅读全文
posted @ 2019-05-28 08:07
左手编程右手诗
摘要:配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume 文章目录 环境介绍 节点介绍 集群介绍 软件版本介绍 前期准备 相关配置 新建用户 centos 添加sudo权限 更改用户名 主
阅读全文
posted @ 2019-05-27 17:53
左手编程右手诗
摘要:一.环境配置 vim /etc/sysconfig/network-scripts/ifcfg-eth0 vim /etc/sysconfig/network vim /etc/hostname vim /etc/hosts 二.ssh 免密码互相登陆 1. ssh-keygen -t rsa 2.
阅读全文
posted @ 2019-05-26 15:15
左手编程右手诗
摘要:mysql 及其mycat 分库分表1.主从架构2.读写分离3.分表分库 3.1水平拆分 3.2垂直拆分 一。读写分离当数据不断增多的时候,数据库压力增大,可以把读和写分离开,读是一些机器,写是另一些机器,对应主从服务器,主服务器是写操作,从服务器读操作,可以有多个从服务器,而且大多数业务是读操作,
阅读全文
posted @ 2019-05-26 14:23
左手编程右手诗
摘要:HA MHA(1)从宕机崩溃的master保存二进制日志事件(binlog events);(2)识别含有最新更新的slave;(3)应用差异的中继日志(relay log)到其他的slave;(4)应用从master保存的二进制日志事件(binlog events);(5)提升一个slave为新的
阅读全文
posted @ 2019-05-26 14:22
左手编程右手诗
摘要:MySQL主从架构配置有两台MySQL数据库服务器master和slave,master为主服务器,slave为从服务器,初始状态时,master和slave中的数据信息相同,当master中的数据发生变化时,slave也跟着发生相应的变化,使得master和slave的数据信息同步,达到备份的目的
阅读全文
posted @ 2019-05-26 14:19
左手编程右手诗
摘要:1.分表 当项目上线后,数据将会几何级的增长,当数据很多的时候,读取性能将会下降,更新表数据的时候也需要更新索引,所以我们需要分表,当数据量再大的时候就需要分库了。 a.水平拆分:数据分成多个表 b.垂直拆分:字段分成多个表 c.插入/更新/删除数据和查询统计 MyISAM存储引擎有一个MERGE存
阅读全文
posted @ 2019-05-26 09:20
左手编程右手诗
摘要:在并发编程中,多个线程之间采取什么机制进行通信(信息交换),什么机制进行数据的同步? 在Java语言中,采用的是共享内存模型来实现多线程之间的信息交换和数据同步的。 线程之间通过共享程序公共的状态,通过读-写内存中公共状态的方式来进行隐式的通信。同步指的是程序在控制多个线程之间执行程序的相对顺序的机
阅读全文
posted @ 2019-05-21 23:08
左手编程右手诗
摘要:一、简介 JStorm是一个分布式实时计算引擎。JStorm是一个类似于Hadoop MapReduce的系统,用户按照指定的接口实现一个任务,然后将这个任务交给JStorm系统,JStorm将这个任务跑起来,并按7*24小时运行。如果中间一个worker发生了意外故障,调度器立即分配一个新的wor
阅读全文
posted @ 2019-05-20 12:01
左手编程右手诗
摘要:import java.net.URI;import java.util.Iterator;import java.util.Map.Entry; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Bloc
阅读全文
posted @ 2019-05-18 09:15
左手编程右手诗
摘要:import java.util.ArrayList; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;im
阅读全文
摘要:package cn.itcast_01_hbase; import java.io.IOException;import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.Configuration;i
阅读全文
摘要:1.JVM参数优化: 2.HBase客户端使用优化: 7.关闭WAL Flag,设置setWriteToWAL(false), 不建议,有丢数据的风险; 3. 建表时优化: 1.根据不同的业务,合理地设置好HBase表命名空间; 4. 运维时优化: 5 .配置参数优化:
阅读全文
摘要:1 mysql数据导入到hdfs数据 hadoop提供了org.apache.hadoop.io.Writable接口来实现简单的高效的可序列化的协议,该类基于DataInput和DataOutput来实现相关的功能。 hadoop对数据库访问也提供了org.apache.hadoop.mapred
阅读全文
posted @ 2019-05-16 21:29
左手编程右手诗
摘要:Yarn的产生 mapReduc1.0 1单点故障 2扩展效率低 3资源利用率高 降低运维成本 方便数据共享 多计算框架支持 MapReduce Spark Storm Yarn的架构图 Yarn模块介绍 ResourceManger 负责集群资源的统一管理和调度 处理客户端请求 启动/监控Appl
阅读全文
摘要:HDFS命令基本格式:hadoop fs -cmd < args > ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件 put 命令hadoop fs -put < local file > <
阅读全文
摘要:1、HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件
阅读全文
摘要:一.消息队列的作用 1. 应用解耦 2.异步处理 3.数据限流 4.消息通信二.概念代理 broker kafka 集群中一个kafka的进程生产者 producer消费者 consumer 消费者组 多个线程来执行 主题 topic 分区 每一个主题中有一个或多个分区 基于物理层次 副本 每个主题
阅读全文
摘要:1.HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似
阅读全文
摘要:1.hive 介绍 (hadoop 上 sql on MR ) hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRe
阅读全文
摘要:准备工作: 注意事项 需要启动多个shell脚本交互客户端进行验证,运行中的客户端不要停止。 安装flume 下载:wget http://mirrors.hust.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 解压:tar -zxv
阅读全文
摘要:事务 事务是一组原子性sql查询语句,被当作一个工作单元。若MySQL对改事务单元内的所有sql语句都正常的执行完,则事务操作视为成功,所有的sql语句才对数据生效,若sql中任意不能执行或出错则事务操作失败,所有对数据的操作则无效(通过回滚恢复数据)。 事务有四个属性 多事务运行时的并发问题 数据
阅读全文
摘要:1. 安装JDK 1.1 安装文件:http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载JDK1.2 安装完成后需要添加以下的环境变量(右键点击“我的电脑” -> "高级系统设置" -> "环境变量" ): JAV
阅读全文
摘要:1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不
阅读全文
摘要:大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。 一、数据采集
阅读全文
摘要:首先,使用 ScalaIDE 或 IDEA 创建 Scala 的 Maven 工程。需要用到 spark-core,spark-sql,spark-streaming 的 jar 包,pom 文件如下: <properties> <spark.version>2.1.0</spark.version
阅读全文
摘要:一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后worke
阅读全文
posted @ 2019-05-09 11:33
左手编程右手诗
摘要:1.map算子 2.filter算子 3.flatMap算子 Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: 操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象
阅读全文
摘要:2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。 这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为 (1)exactly-once在kafka中的定义。(2)数据生产者“幂等操作”,kafka的事务性以及exactl
阅读全文
摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全
阅读全文
摘要:RDD及其特点 1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行
阅读全文
摘要:一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e
阅读全文
摘要:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统
阅读全文
摘要:一、官网介绍 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的
阅读全文
摘要:Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 Spark和Hadoop有什么不同呢? Spark是基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而
阅读全文
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个
阅读全文
摘要:Hadoop 系列(一)基本概念 一、Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。 从其定义就可以发现,它解決了两大问题:大数据存储、大数据分析。也就是 H
阅读全文

浙公网安备 33010602011771号