随笔分类 -  大数据

摘要:上一篇主要讲解什么是 URL Search 和 Request Body Search 的语法。本篇对 Mapping 的 Dynamic Mapping 以及手动创建 Mapping 进行讲解。 1.什么是 Mapping Mapping 类似数据库中的 schema 的定义,作用如下 定义索引中 阅读全文
posted @ 2019-12-25 17:02 隐峯 阅读(2259) 评论(0) 推荐(2) 编辑
摘要:本节主要讲解 Elasticsearch 的 搜索相关功能 Search API,讲解什么是 URL Search 和 Request Body Search 的语法,对常用的语法都会一一进行详细介绍。 1.Search API Search API 分为两大类一个是 URL Search 和 Re 阅读全文
posted @ 2019-12-12 17:58 隐峯 阅读(1514) 评论(0) 推荐(1) 编辑
摘要:上一篇,什么是倒排索引以及原理是什么。本篇讲解 Analyzer,了解 Analyzer 是什么 ,分词器是什么,以及 Elasticsearch 内置的分词器,最后再讲解中文分词是怎么做的。 一、Analysis 与 Analyzer Analysis 文本分析是把全文本转换一系列单词(term/ 阅读全文
posted @ 2019-11-28 16:52 隐峯 阅读(2002) 评论(0) 推荐(1) 编辑
摘要:上一篇,我们介绍了什么是 Elasticsearch,它能做什么用以及基本概念(索引 Index、文档 Document、类型 Type)理解。这篇主要对 文档的基本 CRUD 以及如何批量操作进行讲解。下面让我们进入正题。 一、文档的 CRUE Create 文档 支持自动生成文档 Id 和指定文 阅读全文
posted @ 2019-11-14 17:19 隐峯 阅读(1354) 评论(0) 推荐(0) 编辑
摘要:本篇文章对 Elasticsearch 做了基本介绍,在后续将通过专栏的方式持续更新,本系列以 Elasticsearch7 作为主要的讲解版本,欢迎各位大佬指正,共同学习进步! 一般涉及大型数据库的电子商务和搜索引擎的产品都面临这样一个问题,产品信息检索花费时间太长。这不良的用户体验,可能导致失去 阅读全文
posted @ 2019-10-11 09:24 隐峯 阅读(1754) 评论(0) 推荐(3) 编辑
摘要:现在大多数开发人员都会听说过 Redis。Redis 是目前市场上最好的开源内存 NoSQL 数据库之一。它为前端以及后端服务(如键值查找,队列,哈希等)提供了非常多的帮助。 一、什么是 Redis? 根据 Redis 官方介绍,Redis 是一个开源(BSD许可),内存数据结构存储,用作数据库,缓 阅读全文
posted @ 2019-05-30 17:52 隐峯 阅读(481) 评论(1) 推荐(1) 编辑
摘要:现代商业市场是一个数据驱动的环境,可以说不论技术怎么更新换代,数据都有着不可替代的地位,而且抛开数据谈大数据就是瞎扯,没有数据作支撑的大数据平台就是一个空壳。无论是公司内部的数据还是外部的数据都可以构成我们大数据平台的来源数据,大数据平台的数据来源主要有数据库、日志、前端埋点、爬虫。 1 从数据库导 阅读全文
posted @ 2019-04-08 21:57 隐峯 阅读(1975) 评论(0) 推荐(0) 编辑
摘要:数据同步,顾名思义就是不同系统的数据进行同步处理。而业务系统所涉及的数据库同步是重中之重,虽然大部分数据库都提供了导入导出的工具,但是数据存储到各个地方,Hive、Hbase、MySQL、Oracle 等各种各样的不同数据库,然而要把数据同步到指定不同类型的存储库是非常麻烦。那该如何统一实现数据源同 阅读全文
posted @ 2019-03-30 19:06 隐峯 阅读(509) 评论(0) 推荐(0) 编辑
摘要:迄今,相信大家肯定听说过 HBase,但是对于 HBase 的了解可能仅仅是它是 Hadoop 生态圈重要的一员,是一个大数据相关的数据库技术。 今天我带你们一起领略一下 HBase 体系架构,看看它是如何大规模处理海量数据。 一、什么是 HBase? 关于 HBase 的实现,是基本遵循 Bigt 阅读全文
posted @ 2019-01-19 20:02 隐峯 阅读(1344) 评论(0) 推荐(0) 编辑
摘要:如果你关注大数据科技动向,你对 NoSQL 一定不陌生,NoSQL 是一个分布式数据库。在过去时间,数据存储一直关系型数据库天下,有着良好的控制并发操作、事务功能。虽然RDBMS很优秀,但是随着时间的推移就出现了两个关系数据库解决不了的问题:快速增长的数据规模和日渐复杂的数据模型。结果,我们看到了 阅读全文
posted @ 2019-01-15 18:01 隐峯 阅读(380) 评论(0) 推荐(2) 编辑
摘要:一、什么是 Apache Hive? Apache Hive 是一个基于 Hadoop Haused 构建的开源数据仓库系统,我们使用它来查询和分析存储在 Hadoop 文件中的大型数据集。此外,通过使用 Hive,我们可以在 Hadoop 中处理结构化和半结构化数据。 换句话说,Hive 是一个数 阅读全文
posted @ 2018-12-30 11:31 隐峯 阅读(513) 评论(0) 推荐(0) 编辑
摘要:什么是元数据?在前面的什么是元数据文章中,我们也提到过,元数据是数据的数据,可以帮助数据平台解决“有哪些数据”、“数据存储有多少”、“数据流中的血缘关系”、“如何找到我需要的数据”、“如何使用数据”和“数据的生产进度”问题。 元数据管理是做什么? 元数据在数据平台对原信息的收集、汇总和传递将数据平台 阅读全文
posted @ 2018-12-07 21:20 隐峯 阅读(2229) 评论(0) 推荐(1) 编辑
摘要:什么是元数据? 要理解这个问题,首先要知道“元”是什么。 元数据意味着“有关数据的数据”。虽然“meta”前缀(来自希腊语介词和前缀 μετά-)意味着“之后”或“超越”,但它用于在认识论中表示“约”。元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相 阅读全文
posted @ 2018-12-05 09:24 隐峯 阅读(1115) 评论(1) 推荐(1) 编辑