随笔分类 -  大数据

摘要:年初过来,公司决定搞大数据,大数据越来越流行,跟上时代的脚步,大步向前。大数据开源软件都是在Linux安装,我们选择了开源的Centos系统。正式环境10台以上的机器进行负载均衡。 目前能感受到的优势是分布式存储确实速度和数据的备份、数据的流转确实快了很多,但是读取操作速度没有感受到特别的提升。 主 阅读全文
posted @ 2020-12-09 14:12 云山雾里有阳光 阅读(318) 评论(0) 推荐(0)
摘要:在配置和查看配置之前先弄清楚两个概念 Hive on Spark:hive默认在mr上跑,可改成在spark内存上跑 Spark on hive:不管如何运行spark sql,默认读取的hive数据库,其实spark不是直接读取hive数据库,而是读取hive元数据和hdfs,那就是要配置hive 阅读全文
posted @ 2020-09-02 16:44 云山雾里有阳光 阅读(1294) 评论(0) 推荐(0)