随笔分类 - 大数据技术栈
Hadoop、hive、spark、hive等
摘要:1. 建表 字段类型 tinyint 1字节 范围:-2^7 + 1 ~ 2^7 - 1 smallint 2字节 范围:-2^15 + 1 ~ 2^15 - 1 bigint 8字节 范围:-2^63 + 1 ~ 2^63 - 1 largeint 16字节 范围:-2^127 + 1 ~ 2^1
阅读全文
摘要:1. 大数据应用 大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”, 分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。 搜索引擎主要就做两件事情,一个是网页抓取,一个是索引
阅读全文
摘要:1. 软件性能优化 如何进行软件性能优化,系统地了解软件性能优化。所谓性能优化具体要做些什么呢? 关于软件性能优化,有个著名的论断。 1. 你不能优化一个没有经过性能测试的软件。 2. 你不能优化一个你不了解其架构设计的软件。 如果没有性能测试,那么你就不会知道当前软件的主要性能指标有哪些。通常来说
阅读全文
摘要:大数据概述 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资 产。 大数据主要解决,海量数据的采集、存储和分析计算问题。 按顺序给出数据存储单位:bit、By
阅读全文
摘要:1. 如何选择消息队列 几个比较常见的开源的消息队列中间件,选择消息队列产品的基本标准 首先,必须是开源的产品; 其次,这个产品必须是近年来比较流行并且有一定社区活跃度的产品,流行的产品与周边生态系统会有一个比较好的集成和兼容,比如, Kafka 和 Flink 就有比较好的兼容性,Flink 内置
阅读全文
摘要:1. 丢消息 检测消息丢失的方法 一般而言,一个新的系统刚刚上线,各方面都不太稳定,需要一个磨合期,这个时候,特别需要监控到你的系统中是否有消息丢失的情况。 如果是 IT 基础设施比较完善的公司,一般都有分布式链路追踪系统,使用类似的追踪系统可以很方便地追踪每一条消息。 可以利用消息队列的有序性来验
阅读全文
摘要:Kafka的高性能 Kafka 的性能绝对是处于第一梯队的。我曾经在一台配置比较好的服务器上,对 Kafka 做过极限的性能压测,Kafka 单个节点的极限处理能力接近每秒钟 2000 万条消息,吞吐量达到 每秒钟 600MB。你可能会问,Kafka 是如何做到这么高的性能的? 怎么开发一个高性能的
阅读全文
摘要:ADS聚合 需求分析 以热门品牌统计为例,将数据写入到ads层,然后根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。 热门商品统计(作业) 热门品类统计(作业) 交易用户性别对比(作业) 交易用户年龄段对比(作业) 交易额省市分布(作业) 业务流程图 ADS层写入
阅读全文
摘要:1. Table API和SQL Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。 目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询
阅读全文
摘要:数据的准备 有直接将日志生成到文件,而是将日志发送给某一个指定的端口 1. 通过SpringBoot进行日志的采集 开发SpringBoot程序gmall-logger,采集日志数据 借助Logbak将采集的日志落盘 (1) 在LoggerController上加@Slf4j注解,并通过log.in
阅读全文
摘要:1. Kafka的事务和 Exactly Once Kafka 中的事务,它解决的问题是,确保在一个事务中发送的多条消息,要么都成功,要么都失败。注意,这里面的多条消息不一定要在同一个主题和分区中,可以是发往多个主题和 分区的消息。Kafka 的这种事务机制,单独来使用的场景不多。更多的情况下被用来
阅读全文
摘要:文档(Document) Elasticsearch是面向文档的,文档是所有可搜索数据的最小单位 日志文件中的日志项 一本电影的具体信息/一张唱片的详细信息 MP3播放器里的一首歌/一篇PDF文档中的具体内容 文档会被序列化成JSON格式,保存在Elasticsearch中 JSON对象由字段组成,
阅读全文
摘要:CAP 定理(CAP theorem)又被称作布鲁尔定理(Brewer's theorem),是加州大学伯克利分校的计算机科学家埃里克·布鲁尔(Eric Brewer)在 2000 年的 ACM PODC 上提出的一 个猜想。2002 年,麻省理工学院的赛斯·吉尔伯特(Seth Gilbert)和南
阅读全文
摘要:Type可以理解为关系型数据库的Table,那每个字段的数据类型是如何定义的呢? 实际上每个Type中的字段是什么数据类型,由mapping定义,如果我们在创建Index的时候,没有设定mapping,系统会自动根据一条数据的格式来推断出该数据对应的字段类型, mapping除了自动定义,还可以手动
阅读全文
摘要:如何通过分词生成倒排索引 分词是指将文本转换成一系列单词(term or token)的过程,也可以叫做文本分析,在es里面称为Analysis. Analysis 和Analyzer Analysis - 文本分析是把全文本转换一系列单词(term / token)的过程,也叫分词; Analys
阅读全文
摘要:1. 副本 副本的目的主要是保障数据的高可用性,即使一台ClickHouse节点宕机,那么也可以从其他服务器获得相同的数据。 1.1 副本写入流程 client从clickhouse-a节点写数据,提交写入日志给zookeeper,clickhouse-b有一个监听器来监听zookeeper接收到日
阅读全文
摘要:1. 基本概念 Elasticsearch有几个核心概念,先理解这些概念将有助于掌握Elasticsearch。 近实时(Near Realtime / NRT) Elasticsearch是一个近实时的搜索平台,从生成文档索引到文档成为可搜索,有一个轻微的延迟(通常是一秒钟)。 集群(Cluste
阅读全文
摘要:详细使用参考官方文档: http://kylin.apache.org/cn/docs/ Kylin的构建过程 sql如下 SELECT `APP_POINT`.`MID` as `APP_POINT_MID` ,`APP_POINT`.`MEMBER_LEVEL` as `APP_POINT_ME
阅读全文
摘要:1、电商业务及数据结构 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。 当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登
阅读全文

浙公网安备 33010602011771号