12 2020 档案

摘要:对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。 此时 阅读全文
posted @ 2020-12-31 11:12 大数据学习与分享 阅读(506) 评论(0) 推荐(0)
摘要:Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划一旦确定就不会改变。由于 阅读全文
posted @ 2020-12-21 09:22 大数据学习与分享 阅读(1622) 评论(0) 推荐(0)
摘要:通过Scala对文件进行读写操作在实际业务中应用也比较多,这里介绍几种常用的方式。相信使用Scala进行应用开发时,ArrayBuffer是经常使用的数组。对ArrayBuffer进行新增元素时,通常使用方法:+= 阅读全文
posted @ 2020-12-18 09:23 大数据学习与分享 阅读(246) 评论(0) 推荐(0)
摘要:在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。大量的小文件会影响 阅读全文
posted @ 2020-12-17 09:27 大数据学习与分享 阅读(2623) 评论(0) 推荐(0)
摘要:建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用 阅读全文
posted @ 2020-12-16 09:06 大数据学习与分享 阅读(326) 评论(0) 推荐(0)
摘要:Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 阅读全文
posted @ 2020-12-15 09:01 大数据学习与分享 阅读(587) 评论(0) 推荐(1)
摘要:Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 阅读全文
posted @ 2020-12-14 09:06 大数据学习与分享 阅读(335) 评论(1) 推荐(1)
摘要:在推荐系统中,协同过滤算法是应用较多的,具体又主要划分为基于用户和基于物品的协同过滤算法,核心点就是基于"一个人"或"一件物品",根据这个人或物品所具有的属性,比如 阅读全文
posted @ 2020-12-11 08:57 大数据学习与分享 阅读(1469) 评论(0) 推荐(0)
摘要:在之前的文章《深入探讨HBASE》中,笔者详细介绍了 阅读全文
posted @ 2020-12-10 11:24 大数据学习与分享 阅读(337) 评论(0) 推荐(0)
摘要:通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果 阅读全文
posted @ 2020-12-09 08:58 大数据学习与分享 阅读(577) 评论(0) 推荐(0)
摘要:在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍! 阅读全文
posted @ 2020-12-08 08:59 大数据学习与分享 阅读(463) 评论(0) 推荐(0)
摘要:从内存泄露、内存溢出和堆外内存,JVM优化参数配置参数谈起 阅读全文
posted @ 2020-12-07 09:13 大数据学习与分享 阅读(769) 评论(0) 推荐(0)
摘要:利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?为了更好的说明导致问题 阅读全文
posted @ 2020-12-04 09:08 大数据学习与分享 阅读(1551) 评论(0) 推荐(0)
摘要:首先说一下,这里解决的问题应用场景:sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区?这里涉及到两种情况 阅读全文
posted @ 2020-12-03 08:57 大数据学习与分享 阅读(1813) 评论(0) 推荐(1)
摘要:HBase在WAL机制开启的情况下,不考虑块缓存,数据日志会先写入HLog,然后进入Memstore,最后持久化到HFile中。HFile是存储在hdfs上的,WAL预写日志也是,但Memstore是在内存的 阅读全文
posted @ 2020-12-02 09:01 大数据学习与分享 阅读(513) 评论(0) 推荐(0)
摘要:HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要 阅读全文
posted @ 2020-12-01 09:03 大数据学习与分享 阅读(3999) 评论(0) 推荐(0)