随笔分类 - Hadoop
Hadoop 格式化namenode时报错警告:WARN common.Util: Path /data/dfs/name should be specified as a URI in configuration
摘要:格式化namenode时报错警告:WARN common.Util: Path /data/dfs/name should be specified as a URI in configuration 一、问题分析 在执行hadoop namenode格式化命令:bin/hadoop namenod
阅读全文
Hadoop2.8 安装
摘要:一、下载Hadoop与java jdk-8u221-linux-x64.tar.gz Oracle官网下载 hadoop-2.8.5.tar.gz Hadoop官网下载 二、配置服务期间ssh免密互通 使用如下互信安装脚本 https://www.cnblogs.com/xibuhaohao/p/1
阅读全文
sqoop job 实现自动增量导入
摘要:一、测试环境 1、MySQL表结构 mysql> show create table autoextend\GCREATE TABLE `autoextend` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `name` varchar(30) DEFAULT
阅读全文
Kafka+kylin——kylin2.5.0流式构建
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/a_drjiaoda/article/details/88290620 《一份详细的Kylin执行样例——基于kylin2.5.0》一文中,
阅读全文
Python + Apache Kylin 让数据分析更加简单!
摘要:现如今,大数据、数据科学和机器学习不仅是技术圈的热门话题,也是当今社会的重要组成。数据就在每个人身边,同时每天正以惊人的速度快速增长,据福布斯报道:到 2025 年,每年将产生大约 175 个 Zettabytes 的数据量。 目前我们所熟知的行业都越来越依赖于对大数据的高级处理和分析,如金融、医疗
阅读全文
性能测试解读:Kyligence vs Spark SQL
摘要:全球各种大数据技术涌现的今天,为了充分利用大量数据获得竞争优势,企业需要高性能的数据分析平台,可靠并及时地提供对海量数据的分析见解。对于数据驱动型企业,在海量数据上交互式分析的能力是非常重要的能力之一。本测试侧重在多维分析场景,对比Spark SQL 与 Kyligence 产品在大规模数据集上的查
阅读全文
Hive ACID和事务表支持详解
摘要:一、ACID介绍 ACID就是常见数据库事务的四大特性:Atomicity(原子性)、Consistency(一致性)、Isolation(隔离性)、Durability(持久性)。 在Hive 0.13之前,Hive支持分区级别上原子性、一致性、持久性,隔离性可以通过hive提供的锁机制来实现(通
阅读全文
Cloudera Manager和CDH5.8离线安装
摘要:https://blog.csdn.net/zzq900503/article/details/52982828 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8。CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也
阅读全文
CDH 大数据平台搭建
摘要:一、概述 Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了
阅读全文
HDP 大数据平台搭建
摘要:一、概述 Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具,Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。提供Web UI进行可
阅读全文
HDP 企业级大数据平台
摘要:一 前言 阅读本文前需要掌握的知识: Linux基本原理和命令 Hadoop生态系统(包括HDFS,Spark的原理和安装命令) 由于Hadoop生态系统组件众多,导致大数据平台多节点的部署,监控极其不方便,因此一些Hadoop厂商提供了企业发行版,例如CDH,HDP等。这些Hadoop企业发行版将
阅读全文
Apache Kylin在4399大数据平台的应用
摘要:来自:AI前线(微信号:ai-front),作者:林兴财,编辑:Natalie作者介绍:林兴财,毕业于厦门大学计算机科学与技术专业。有多年的嵌入式开发、系统运维经验,现就职于四三九九网络股份有限公司,担任大数据开发工程师,主要负责大数据平台的规划建设。 来自:AI前线(微信号:ai-front),作
阅读全文
Apache Kylin v3.0.0-alpha 发布
摘要:Apache Kylin v3.0.0-alpha 发布 Apr 19, 2019 • Shaofeng Shi 近日 Apache Kylin 社区很高兴地宣布,Apache Kylin v3.0.0-alpha 正式发布。 Apache Kylin 是一个开源的分布式分析引擎,旨在为极大数据集提
阅读全文
Apache Kylin在美团点评的应用
摘要:本文原载自大数据杂谈微信公众号。 感谢美团点评工程师高大月撰文并授权转载。 高大月,美团点评工程师,Apache Kylin PMC成员,目前主要在美团点评数据平台负责OLAP查询引擎的建设。 背景 美团点评的OLAP需求大体分为两类: 即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。这
阅读全文
Kylin 架构模块简介
摘要:Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
阅读全文
Kylin 1 背景、历史与使命
摘要:1.1 背景和历史 今天,大数据领域的发展如火如荼,各种新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术——Apache Hadoop,从诞生至今已有10周年。它最初只是致力于简单的分布式存储,然后在其之上实现大规模并行计算,到如今它已在实时分析、多维分析、交互式分析、机器学习甚至人工智
阅读全文
浙公网安备 33010602011771号