随笔分类 - 大数据
摘要:1.1 准备安装包 下载安装包并上传到hadoop01服务器 安装包下载地址:https://www.apache.org/dyn/closer.lua/hbase/2.2.6/hbase-2.2.6-bin.tar.gz 将安装包上传到node01服务器/bigdata/softwares路径下,
阅读全文
摘要:HBase和MapReduce 2018-03-30 13:59 更新 HBase和MapReduce Apache MapReduce 是一个用于分析大量数据的软件框架。它由 Apache Hadoop 提供。MapReduce 本身超出了本文档的范围。开始使用 MapReduce 的好地方是 h
阅读全文
摘要:HBase数据模型 2018-03-03 15:20 更新 HBase数据模型 在 HBase 中,数据模型同样是由表组成的,各个表中又包含数据行和列,在这些表中存储了 HBase 数据。在本节中,我们将介绍 HBase 数据模型中的一些术语。 HBase数据模型术语 表(Table) HBase
阅读全文
摘要:https://www.w3cschool.cn/hbase_doc/ HBase 概述 HBase是Apache的Hadoop项目的子项目,是Hadoop Database的简称。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建
阅读全文
摘要:ClickHouse操作手册由以下主要部分组成: 安装要求 监控 故障排除 使用建议 更新程序 访问权限 数据备份 配置文件 配额 系统表 服务器配置参数 如何用ClickHouse测试你的硬件 设置 实用工具 必备条件 CPU 如果您使用预编译的DEB/RPM包安装ClickHouse,请使用支
阅读全文
摘要:SQL参考 ClickHouse支持以下形式的查询: SELECT INSERT INTO CREATE ALTER 其他类型的查询 ClickHouse SQL 语句 语句表示可以使用 SQL 查询执行的各种操作。每种类型的语句都有自己的语法和用法详细信息,这些语法和用法详细信息单独描述如下所示:
阅读全文
摘要:引擎 数据库引擎 index 表引擎 数据库引擎 数据库引擎允许您处理数据表。 默认情况下,ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。 您还可以使用以下数据库引擎: MySQL MaterializeMySQL Lazy At
阅读全文
摘要:客户端 ClickHouse提供了两个网络接口(两个都可以选择包装在TLS中以增加安全性): HTTP, 包含文档,易于使用。 Native TCP,简单,方便使用。 在大多数情况下,建议使用适当的工具或库,而不是直接与它们交互。Yandex官方支持的项目有: 命令行客户端 JDBC驱动 ODBC驱
阅读全文
摘要:示例 GitHub 事件数据集 数据集包含了GitHub上从2011年到2020年12月6日的所有事件,大小为31亿条记录。下载大小为75 GB,如果存储在使用lz4压缩的表中,则需要多达200 GB的磁盘空间。 Anonymized Yandex.Metrica Data 数据集由两个表组成,包含
阅读全文
摘要:一切从示例程序开始: 示例程序 Hadoop2.7 提供的示例程序WordCount.java package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; impo
阅读全文
摘要:原文地址:http://blog.fens.me/hadoop-family-roadmap/ Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, A
阅读全文
摘要:随着大数据技术在各行各业的广泛应用,要求能对海量数据进行实时处理的需求越来越多,同时数据处理的业务逻辑也越来越复杂,传统的批处理方式和早期的流式处理框架也越来越难以在延迟性、吞吐量、容错能力以及使用便捷性等方面满足业务日益苛刻的要求。 在这种形势下,新型流式处理框架Flink通过创造性地把现代大规模
阅读全文
摘要:https://clickhouse.com/docs/zh/ 一、clickhouse简介 ClickHouse 是俄罗斯的Yandex开源的用于在线分析处理查询(OLAP :Online Analytical Processing)的列式存储数据库(DBMS:Database Managemen
阅读全文
摘要:1 Sqoop概述 2 版本说明 3 驱动安装 3.1 MySQL 4 基本用法 4.1 导入 4.1.1 保护密码 4.1.2 使用其他文件格式 4.1.3 压缩导入的数据 4.1.4 提高传输速度 4.1.5 自定义类型映射 4.1.6 并行控制 4.1.7 对NULL值进行编码 4.1.8 导
阅读全文
摘要:Flink 入门 Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态的计算。Flink被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。 Apache Flink is a framework and distributed processin
阅读全文
摘要:https://www.w3cschool.cn/hive_manual/ 一、简述 HiveQL是一种声明式语言,用户提交查询,而Hive会将其转换成MapReduce job,如下图。一般来说大部分时间可以无视这个执行过程的内部逻辑,但是如果能了解这些底层实现细节,在调优的时候就会更得心应手。
阅读全文
摘要:https://www.w3cschool.cn/apache_pig/ 什么是Apache Pig? Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hado
阅读全文
摘要:Storm结构概述 主流的三大分布式计算系统:Hadoop,Spark和Storm 由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafa
阅读全文
摘要:https://www.w3cschool.cn/scala/ Scala 教程关于基础基础知识(续)Finagle 介绍集合Searchbird模式匹配与函数组合类型和多态基础高级类型简单构建工具更多的集合使用 specs 测试Scala 并发编程Java 与 Scala Scala 相关教程Sc
阅读全文
摘要:https://www.w3cschool.cn/spark/ Spark 编程指南 spark特性: 提供了java scala python 和R的api支持。 在生产环境上扩展超过8000个节点。 可以在内存中缓存交互中间数据的能力:提炼一个工作集合,缓存它,反复查询。 低级别的水平伸缩的数据
阅读全文