Fork me on GitHub

随笔分类 -  大数据技术栈

上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
Hadoop、hive、spark、hive等
摘要:Table API与SQL Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。 Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规S 阅读全文
posted @ 2020-01-31 22:27 kris12 阅读(560) 评论(0) 推荐(0)
摘要:Druid是一个快速的列式分布式的支持实时分析的数据存储系统,在处理PB级别数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。 Druid数据结构 与Druid架构相辅相成的是其基于DataSource与Segment的数据结构,它们共同成就了Druid的高性能优势。 Dr 阅读全文
posted @ 2020-01-30 10:20 kris12 阅读(1271) 评论(0) 推荐(0)
摘要:Presto Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。 虽presto可以解析SQL,但它不是一个标准的数据库,不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP); Presto、Impala性能比较 测试结论:Imp 阅读全文
posted @ 2020-01-09 23:36 kris12 阅读(2040) 评论(0) 推荐(0)
摘要:简介 Linux中,周期执行的任务一般由cron这个守护进程来处理 ps -ef | grep cron cron读取一个或多个配置文件,这些配置文件中包含了命令行及其调用时间。 cron的配置文件称为“crontab”,是“cron table”的简写。 1、/var/spool/cron/ 这个 阅读全文
posted @ 2020-01-02 11:16 kris12 阅读(379) 评论(0) 推荐(0)
摘要:1. Window概述 一般真实的流都是无界的,怎么处理无界的数据?可以把无限的数据流进行切分,得到有限的数据集进行处理 也就是得到有界流。 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集; 而window是把无限数据流为有限 阅读全文
posted @ 2019-12-31 11:12 kris12 阅读(1406) 评论(0) 推荐(0)
摘要:夜间多个任务同时并行,总有几个随机性有任务失败,查看日志: 刷选关键词 Caused by 或者 FAILED cat -n ads_channel.log |grep "Caused by" 7732 Caused by: java.util.concurrent.ExecutionExcepti 阅读全文
posted @ 2019-12-21 11:38 kris12 阅读(1131) 评论(0) 推荐(0)
摘要:概述 Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指 阅读全文
posted @ 2019-12-19 19:47 kris12 阅读(4498) 评论(2) 推荐(2)
摘要:调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件; 所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xm 阅读全文
posted @ 2019-12-09 18:39 kris12 阅读(893) 评论(0) 推荐(0)
摘要:1. Flink运行时组件 作业管理器(JobManager) 任务的分配、调度管理以及checkpoint触发存盘操作。分析JAR包生产一个执行计划图(就可以知道有多少个任务task,需要多少个slot去执行,想RM去申请) 控制每一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的J 阅读全文
posted @ 2019-11-03 10:45 kris12 阅读(1626) 评论(0) 推荐(0)
摘要:1. 流处理技术的演变 在开源世界里,Apache Storm项目是流处理的先锋。Storm提供了低延迟的流处理,但是它为实时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需的水平,换句话说,它并不能保证exactly-once,即便是它能够保证的正确性级别,其开销也相当大。 在低延迟 阅读全文
posted @ 2019-10-21 15:27 kris12 阅读(822) 评论(0) 推荐(0)
摘要:Phoenix创建Hbase二级索引 官方文档 1. 配置Hbase支持Phoenix创建二级索引 1. 添加如下配置到Hbase的Hregionserver节点的hbase-site.xml <!-- phoenix regionserver 配置参数 --> <property> <name>h 阅读全文
posted @ 2019-10-10 22:38 kris12 阅读(1702) 评论(0) 推荐(0)
摘要:Google 发表 GFS、MapReduce、BigTable 三篇论文,号称“三驾马车”,开启了大数据的时代。 GFS 对应的 Hadoop 分布式文件系统 HDFS,以及 MapReduce 对应的 Hadoop 分布式计算框架 MapReduce,BigTable 对应的 NoSQL 系统 阅读全文
posted @ 2019-10-10 10:54 kris12 阅读(483) 评论(0) 推荐(0)
摘要:1. 与Hive的集成 Hive和Hbase在大数据架构中处在不同位置,Hive是一个构建在Hadoop基础之上的数据仓库,主要解决分布式存储的大数据处理和计算问题,Hive提供了类SQL语句,叫HiveQL, 通过它可以使用SQL查询存放在HDFS上的数据,sql语句最终被转化为Map/Reduc 阅读全文
posted @ 2019-09-20 10:07 kris12 阅读(1652) 评论(0) 推荐(0)
摘要:用户画像 从用户画像的数据架构谈需要掌握的大数据模块和开发语言 日全量数据表中,每天对应的日期分区中插入截止到当天为止的全量数据,用户使用查询时,只需查询最近一天即可获得最新全量数据。 下面以一个具体的日全量表结构例子来做说明。 这里tagid表示标签名称,userid表示用户id,tagweigh 阅读全文
posted @ 2019-08-31 23:05 kris12 阅读(842) 评论(0) 推荐(0)
摘要:1. ClickHouse概述 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 官网:https://clic 阅读全文
posted @ 2019-08-31 08:09 kris12 阅读(7273) 评论(0) 推荐(0)
摘要:1. MongoDB简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。• MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。• MongoDB的数据模型是面向文档的,所谓文档是一种类似于JSON的结构,简单理解MongoDB这个数据库中存的是各种各样的JSON。( 阅读全文
posted @ 2019-08-28 00:04 kris12 阅读(352) 评论(0) 推荐(0)
摘要:Phoenix Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。 1.特点 1) 容易集成:如Spark,Hive,Pig,Flume和Map Reduce。 2) 性能好:直接使用HBase API以及协处理 阅读全文
posted @ 2019-08-06 12:47 kris12 阅读(1614) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
levels of contents