当下大数据体系的4个热点,4个趋势和3个问题[转]
摘要:如今,大数据技术已进入“后红海”时代,成了“水电煤”一样可以普惠人人的技术。同时,新领域仍在不断演进迭代。 本文的上篇 “Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?”,阐述了后红海时代下大数据体系的演进热点是什么,以及大数据体系3个子领域的技术解读,包括多层智能化演进
阅读全文
posted @
2021-09-18 18:06
一天不进步,就是退步
阅读(601)
推荐(0)
Trino学习总结[转]
摘要:原文地址:https://blog.csdn.net/Happy_Sunshine_Boy/article/details/112967839 文章目录1.Trino与Spark SQL的区别分析2.Trino与Spark SQL解析过程对比3.Trino基本概念4.Trino架构5.Trino S
阅读全文
posted @
2021-09-18 09:50
一天不进步,就是退步
阅读(1208)
推荐(0)
玩转 Elasticsearch 的 SQL 功能[转]
摘要:原文地址:https://zhuanlan.zhihu.com/p/59262530 最近发布的 Elasticsearch 6.3 包含了大家期待已久的 SQL 特性,今天给大家介绍一下具体的使用方法。 首先看看接口的支持情况 目前支持的 SQL 只能进行数据的查询只读操作,不能进行数据的修改,所
阅读全文
posted @
2021-05-28 14:27
一天不进步,就是退步
阅读(784)
推荐(0)
Solr Facet技术的应用与研究[转]
摘要:原文地址:https://tech.meituan.com/2014/06/09/solr-facet.html 问题背景 在《搜索引擎关键字智能提示的一种实现》一文中介绍过,美团的CRM系统负责管理销售人员的门店(POI)和项目(DEAL)信息,提供统一的检索功能,其索引层采用的是SolrClou
阅读全文
posted @
2021-03-16 09:59
一天不进步,就是退步
阅读(94)
推荐(0)
Moonbox-DVtaaS(Data Virtualization as a Service)平台解决方案
摘要:原文地址:https://edp963.github.io/moonbox/ Moonbox基于数据虚拟化设计思想,致力于提供批量计算服务解决方案。Moonbox负责屏蔽底层数据源的物理和使用细节,为用户带来虚拟数据库般使用体验,用户只需通过统一SQL语言,即可透明实现跨异构数据系统混算和写出。此外
阅读全文
posted @
2021-02-24 15:34
一天不进步,就是退步
阅读(145)
推荐(0)
DataX的执行流程分析【转】
摘要:链接:https://www.jianshu.com/p/b10fbdee7e56 开篇 最早接触DataX是在前阿里同事在现在的公司引入的时候提到的,一直想抽空好好看看这部分代码,因为DataX的代码框架设计的很好,非常适合二次开发。在熟悉DataX的代码过程中,没有时间针对每个数据源的读写部分代
阅读全文
posted @
2020-12-18 19:29
一天不进步,就是退步
阅读(3231)
推荐(0)
大数据平台架构设计探究【转】
摘要:原文地址:https://xie.infoq.cn/article/2a0eccd630d6a215230dd0195 近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据
阅读全文
posted @
2020-08-27 17:58
一天不进步,就是退步
阅读(258)
推荐(0)
数据治理系列3:数据标准管理【转】
摘要:导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方
阅读全文
posted @
2020-04-30 10:33
一天不进步,就是退步
阅读(672)
推荐(0)
PostgreSQL获取所有的表信息 字段信息【转】
摘要:获取数据库中所有table名: SELECT tablename FROM pg_tables WHERE tablename NOT LIKE 'pg%' AND tablename NOT LIKE 'sql_%'ORDER BY tablename;获取数据库中所有table名及table的注
阅读全文
posted @
2020-04-20 15:28
一天不进步,就是退步
阅读(1755)
推荐(0)
超详细的ELASTICSEARCH高性能优化实践[转]
摘要:ES 性能调优 ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。 写优化 假设我们的应用场景要求是,每秒 300 万的写入速度,每条 500 字节左右。 针对这种对于搜索性能要求不高,但是对写入要求较高的场景,我们需要尽可能的选择
阅读全文
posted @
2020-04-03 16:19
一天不进步,就是退步
阅读(727)
推荐(0)
Java High-Level REST Client – Elasticsearch
摘要:https://blog.knoldus.com/java-high-level-rest-client-elasticsearch/ Elasticsearch is an open-source, highly scalable full-text search and analytics en
阅读全文
posted @
2020-03-16 17:57
一天不进步,就是退步
阅读(150)
推荐(0)
SpringBoot集成Elasticsearch7.4 实战【转】
摘要:内容规划总共分为三个章节来写,分别运行环境构建、利用Web应用管理索引以及Web应用管理数据三大块来说明。 具体有: 一、SpringBoot集成Elasticsearch7.4 实战(一):这些操作都是在CentOS下操作的,主要带大家熟悉下Elasticsearch环境。 1.1.下载& Lin
阅读全文
posted @
2020-03-16 17:54
一天不进步,就是退步
阅读(353)
推荐(0)
有别于 BATJ,滴滴的中台数据体系建设怎么另辟蹊径?【转】
摘要:原文地址:https://www.infoq.cn/article/sMgAyYBcyuqfUawMsuEA 前年阿里开始讲数据中台业务,去年以来这个概念很火直到最近。我在阿里待了 10 年的时间,也参与了中台建设,今天想跟大家分享一下背后的逻辑,还有我在滴滴的实践,以及中台本质的问题是什么。 今天
阅读全文
posted @
2019-12-13 14:09
一天不进步,就是退步
阅读(642)
推荐(0)
Lucene 分组统计详解【转】
摘要:原文地址:http://codepub.cn/2017/11/15/lucene-group-statistics-detailed/ 抛出问题 在 RDBMS 中,我们可以使用 GROUP BY 来对检索的数据进行分组,同样地,想要在 Lucene 中实现分组要如何做呢?首先思考如下几个问题 Lu
阅读全文
posted @
2019-11-22 20:17
一天不进步,就是退步
阅读(1421)
推荐(0)
USING AGGREGATIONS WITH THE JAVA REST CLIENT FOR ELASTICSEARCH【转】
摘要:原文地址:https://cinhtau.net/2018/06/07/using-aggregations-java-rest-client-elasticsearch/ The aggregations framework helps provide aggregated data based
阅读全文
posted @
2019-11-20 10:34
一天不进步,就是退步
阅读(171)
推荐(0)
小米亿级大数据实时分析与工具选型 【转】
摘要:原文地址:https://www.sohu.com/a/108095234_353595 导读:本PPT源于欧阳辰老师在2016DAMS中国数据资产管理峰会现场演讲内容,结合了在小米、微软的一些大数据实践,讲述了对大数据的理解,及介绍了一些好用的工具。 人物名片:欧阳辰,超过15年的软件开发和设计经
阅读全文
posted @
2019-08-22 18:49
一天不进步,就是退步
阅读(700)
推荐(0)
淘宝大数据之路【转】
摘要:原文地址:https://yq.aliyun.com/articles/62528 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路
阅读全文
posted @
2019-08-22 18:47
一天不进步,就是退步
阅读(1538)
推荐(0)
有关数据治理的本质及实践,看这一篇就够了【转】
摘要:原文地址:https://www.infoq.cn/article/UBch5BDK2TWGdo5x*UzN 目 录 什么是数据治理? 为什么要实施数据治理? 数据治理的目标是什么? 当前数据治理存在哪些问题和困难? 数据治理包含哪些内容? 数据治理需要哪些工具? (1)什么是数据治理? 我们认为,
阅读全文
posted @
2019-08-14 13:48
一天不进步,就是退步
阅读(2211)
推荐(0)
What type of NoSQL database is best suited to store hierarchical data?【转】
摘要:原文地址:https://stackoverflow.com/questions/4767944/what-type-of-nosql-database-is-best-suited-to-store-hierarchical-data This is graph database. Can be
阅读全文
posted @
2019-07-24 17:55
一天不进步,就是退步
阅读(113)
推荐(0)
Apache Flink 零基础入门【转】
摘要:Apache Flink 零基础入门(一):基础概念解析 Apache Flink 零基础入门(二):DataStream API 编程
阅读全文
posted @
2019-06-28 19:01
一天不进步,就是退步
阅读(339)
推荐(0)