随笔分类 - 大数据
摘要:Flink在米哈游的落地实践基于Flnk+Hudi的数据湖落地方案20 个短小精悍的 pandas 骚操作从杀慢查询入手来预防 MySQL 雪崩的办法ClickHouse 在网易的实践HBase海量数据高效入仓解决方案Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储
阅读全文
posted @ 2022-03-20 22:49
弱水三千12138
摘要:https://blog.csdn.net/Happy_Sunshine_Boy/article/details/112967839
阅读全文
posted @ 2021-11-18 10:43
弱水三千12138
摘要:参考: 跨越速运 x DorisDB:统一查询引擎,强悍性能带来极速体验 Lenovo x DorisDB:简化数据处理链路,极大提升BI分析效率 贝壳找房 x DorisDB:全新统一的极速OLAP平台实践 好未来 x DorisDB:全新实时数仓实践,深入释放实时数据价值 小红书 x Doris
阅读全文
posted @ 2021-10-18 09:10
弱水三千12138
摘要:Kafka在车好多的最佳实践 [大数据]SparkSQL极速入门 整合Kudu实现广告业务数据分析 彭文华:数澜、宜信、贝壳三种数据中台建设模式探讨 Kudu遇到的问题 网易数据湖探索与实践 架构师不会架构选型,能行吗? 腾讯看点多维实时分析系统架构大曝光! 大数据入门:Spark+Kudu的广告业
阅读全文
posted @ 2020-11-29 20:34
弱水三千12138
摘要:这些未在 Spark SQL 文档中说明的优化措施,你知道吗? 深入浅出Spark(三):Spark调度系统之“权力的游戏” Spark数据倾斜方案实战(三) 从毛片打码到看Spark源码,我经历了什么 基于 Spark 技术快速构建数仓项目 Spark数据工程|专题(1)——引入,安装,数据填充,
阅读全文
posted @ 2020-11-29 20:24
弱水三千12138
摘要:40亿条/秒!Flink流批一体在阿里双11首次落地的背后 技术选型:为什么批处理我们却选择了Flink 新老手都值得关注的Flink关键技术解析与优化实战 Flink 生态 | 基于 Flink+Iceberg 构建企业级实时数据湖 基于Flink的网络流量实时解析 Flink新增特性 | CDC
阅读全文
posted @ 2020-11-29 20:15
弱水三千12138
摘要:参考 GitHub - qq85609655/DataLink: DataLink是一个满足各种异构数据源之间的实时增量同步,分布式、可扩展的数据交换平台。 Welcome to DataLink 来了!“DataLink”多源时空数据整合系统V1.0正式发布! 整合多源数据,“DataLink”助
阅读全文
posted @ 2020-10-24 20:57
弱水三千12138
摘要:数据采集 数据采集-1 - 弱水三千12138 - 博客园 百度一下,你就知道 如何高效进行数据采集,这里有一套完整方案 数据埋点采集的那些事儿 六大主流大数据采集平台架构分析 数据采集系统在中医药健康大数据中的应用 【大数据】StreamSets:一个大数据采集工具 聊聊工业大数据采集的那些事~
阅读全文
posted @ 2020-10-23 21:53
弱水三千12138
摘要:官方文档 openLookeng社区主页: https://openlookeng.io openLookeng代码托管地址:https://gitee.com/openlookenghttps://github.com/openlookeng
阅读全文
posted @ 2020-09-18 08:29
弱水三千12138
摘要:博客后台 - 博客园Hadoop之详解HDFS架构从生日请客到hdfs工作原理解析字节跳动EB级HDFS的七年演进与实践HDFS短路读详解运营大规模HDFS集群必看:系统升级后,怎么性能反而恶化了?!CM上HDFS容量显示与实际命令不一致问题分析0675-6.2.0-什么是HDFS分层存储什么是HD
阅读全文
posted @ 2020-09-15 23:05
弱水三千12138
摘要:博客后台 - 博客园数据倒换工具 Sqoop (大数据时代的ETL)sqoop数据导入总结Sqoop概述及shell操作Hadoop之Sqoop干货 | 使用Sqoop将数据从MySQL导入Cloudera数据仓库Sqoop最佳实践Sqoop的介绍及安装[好程序员大数据]数据同步工具sqoop高级课
阅读全文
posted @ 2020-09-15 23:01
弱水三千12138
摘要:博客后台 - 博客园Flume入门 | 基本概念及架构说明Flume日志收集系统架构详解插件编写 -- Flume海量数据实时数据转换flume应该思考的问题大数据篇-日志采集工具flumeFlume学习笔记(八) Flume监控Flume案例——日志分析采集系统flume负载均衡Flume——迄今
阅读全文
posted @ 2020-09-15 22:59
弱水三千12138
摘要:博客后台 - 博客园Hadoop 生态系列之 Yarn原创 | 【大数据躺过的坑】大数据入门基础系列之YARN组件系列(撰写更新ing)YARN的原理与架构Yarn模式下的监控界面介绍YARN 架构详解深度 | Hadoop数据操作系统YARN全解析Yarn是如何启动一个容器的?扩展Yarn资源模型
阅读全文
posted @ 2020-09-15 22:34
弱水三千12138
摘要:【Spark】Spark基础教程_兰陵鸡王的博客-CSDN博客Spark 学习: spark 原理简述 - 知乎博客后台 - 博客园【面试妥了】史上最全Spark面试题Spark SQL从入门到精通Spark SQL快速入门系列之Hive超全spark性能优化总结Spark SQL 在字节跳动的核心
阅读全文
posted @ 2020-09-15 22:10
弱水三千12138
摘要:https://www.yiibai.com/hive/ Hive详细介绍及简单应用 https://blog.csdn.net/qq_45710900/article/details/102568132 数据仓库 | Hive必知必会(推荐收藏) 大数据面试题锦集 | 数据仓库工具HIVE篇 8个
阅读全文
posted @ 2020-09-15 08:35
弱水三千12138
摘要:参考: Hbase 技术细节笔记(上) Hbase 技术细节笔记(下) 一、Hbase介绍 1、Hbase简介 Hbase是Hadoop Database的简称 ,Hbase项目是由Powerset公司的Chad Walters和Jim Kelleman在2006年末发起, 根据Google的Cha
阅读全文
posted @ 2020-09-06 22:37
弱水三千12138
摘要:https://www.yiibai.com/hbase/ https://my.oschina.net/u/4287691/blog/3681374 https://my.oschina.net/u/3371661/blog/3018512
阅读全文
posted @ 2020-09-05 21:57
弱水三千12138

浙公网安备 33010602011771号