随笔分类 - 大数据技术栈
Hadoop、hive、spark、hive等
摘要:Table API与SQL Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。 Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规S
阅读全文
摘要:Druid是一个快速的列式分布式的支持实时分析的数据存储系统,在处理PB级别数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。 Druid数据结构 与Druid架构相辅相成的是其基于DataSource与Segment的数据结构,它们共同成就了Druid的高性能优势。 Dr
阅读全文
摘要:Presto Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。 虽presto可以解析SQL,但它不是一个标准的数据库,不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP); Presto、Impala性能比较 测试结论:Imp
阅读全文
摘要:简介 Linux中,周期执行的任务一般由cron这个守护进程来处理 ps -ef | grep cron cron读取一个或多个配置文件,这些配置文件中包含了命令行及其调用时间。 cron的配置文件称为“crontab”,是“cron table”的简写。 1、/var/spool/cron/ 这个
阅读全文
摘要:1. Window概述 一般真实的流都是无界的,怎么处理无界的数据?可以把无限的数据流进行切分,得到有限的数据集进行处理 也就是得到有界流。 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集; 而window是把无限数据流为有限
阅读全文
摘要:夜间多个任务同时并行,总有几个随机性有任务失败,查看日志: 刷选关键词 Caused by 或者 FAILED cat -n ads_channel.log |grep "Caused by" 7732 Caused by: java.util.concurrent.ExecutionExcepti
阅读全文
摘要:概述 Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指
阅读全文
摘要:调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件; 所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xm
阅读全文
摘要:1. Flink运行时组件 作业管理器(JobManager) 任务的分配、调度管理以及checkpoint触发存盘操作。分析JAR包生产一个执行计划图(就可以知道有多少个任务task,需要多少个slot去执行,想RM去申请) 控制每一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的J
阅读全文
摘要:1. 流处理技术的演变 在开源世界里,Apache Storm项目是流处理的先锋。Storm提供了低延迟的流处理,但是它为实时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需的水平,换句话说,它并不能保证exactly-once,即便是它能够保证的正确性级别,其开销也相当大。 在低延迟
阅读全文
摘要:Phoenix创建Hbase二级索引 官方文档 1. 配置Hbase支持Phoenix创建二级索引 1. 添加如下配置到Hbase的Hregionserver节点的hbase-site.xml <!-- phoenix regionserver 配置参数 --> <property> <name>h
阅读全文
摘要:Google 发表 GFS、MapReduce、BigTable 三篇论文,号称“三驾马车”,开启了大数据的时代。 GFS 对应的 Hadoop 分布式文件系统 HDFS,以及 MapReduce 对应的 Hadoop 分布式计算框架 MapReduce,BigTable 对应的 NoSQL 系统
阅读全文
摘要:1. 与Hive的集成 Hive和Hbase在大数据架构中处在不同位置,Hive是一个构建在Hadoop基础之上的数据仓库,主要解决分布式存储的大数据处理和计算问题,Hive提供了类SQL语句,叫HiveQL, 通过它可以使用SQL查询存放在HDFS上的数据,sql语句最终被转化为Map/Reduc
阅读全文
摘要:用户画像 从用户画像的数据架构谈需要掌握的大数据模块和开发语言 日全量数据表中,每天对应的日期分区中插入截止到当天为止的全量数据,用户使用查询时,只需查询最近一天即可获得最新全量数据。 下面以一个具体的日全量表结构例子来做说明。 这里tagid表示标签名称,userid表示用户id,tagweigh
阅读全文
摘要:1. ClickHouse概述 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 官网:https://clic
阅读全文
摘要:1. MongoDB简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。• MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。• MongoDB的数据模型是面向文档的,所谓文档是一种类似于JSON的结构,简单理解MongoDB这个数据库中存的是各种各样的JSON。(
阅读全文
摘要:Phoenix Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。 1.特点 1) 容易集成:如Spark,Hive,Pig,Flume和Map Reduce。 2) 性能好:直接使用HBase API以及协处理
阅读全文

浙公网安备 33010602011771号