随笔分类 - 大数据
摘要:年初过来,公司决定搞大数据,大数据越来越流行,跟上时代的脚步,大步向前。大数据开源软件都是在Linux安装,我们选择了开源的Centos系统。正式环境10台以上的机器进行负载均衡。 目前能感受到的优势是分布式存储确实速度和数据的备份、数据的流转确实快了很多,但是读取操作速度没有感受到特别的提升。 主
阅读全文
摘要:在配置和查看配置之前先弄清楚两个概念 Hive on Spark:hive默认在mr上跑,可改成在spark内存上跑 Spark on hive:不管如何运行spark sql,默认读取的hive数据库,其实spark不是直接读取hive数据库,而是读取hive元数据和hdfs,那就是要配置hive
阅读全文

浙公网安备 33010602011771号