随笔分类 -  大数据

摘要:Lambda和Kappa都是为了解决大量数据的移动,以实现可靠的在线访问而提出的数据架构。 最受欢迎的架构一直是并将继续是Lambda架构。 然而,随着流式处理变得更容易获得,在不久的将来你也会听到更多关于Kappa架构的消息。 Lambda架构 数据摄取层(Ingestion layer)负责收集 阅读全文
posted @ 2025-07-07 16:02 飞翔在天 阅读(185) 评论(0) 推荐(0)
摘要:HBase 提供海量半结构/非结构化数据下的实时存储、高并发吞吐、轻SQL分析、全文检索等能力, 结合完备的工具服务,丰富的生态融合,一站式高效满足企业在大数据量场景下的存储、检索、分析需求,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景的数据库。 应用场景:https://www 阅读全文
posted @ 2024-09-25 19:40 飞翔在天 阅读(21) 评论(0) 推荐(0)
摘要:在大数据领域中,HBase和HDFS是两种常用的存储系统。它们各自有其独特的特性和优势,但也有一些关键的差异。理解这些差异可以帮助我们更好地选择适合我们需求的存储解决方案。 HBase:HBase是一个分布式列存储数据库,它是Apache Hadoop生态系统的一部分。它以行键为索引,支持高性能的随 阅读全文
posted @ 2024-09-23 14:33 飞翔在天 阅读(331) 评论(0) 推荐(1)
摘要:本文档基于Windows搭建本地JAVA Spark开发环境。 JDK1.8+Spark2.3.1+Hadoop2.7.1 1 JDK 1.8安装 官网下载JDK。 注意JDK安装目录不可以包含空格,比如:C:\Java\jdk1.8.0_171,否则可能导致后续运行Spark报错(提示找不到jav 阅读全文
posted @ 2018-06-28 22:17 飞翔在天 阅读(399) 评论(0) 推荐(0)