2019 年 1月 30 日随笔档案 - 卅先生

摘要：谈到 Spark，我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢？是因为它优先使用内存存储？还是因为它拥有比 MapReduce 更简单高效的计算模型？与 Hadoop 作业的区别我们知道在 Hadoop 中，一个作业（Job）可以有一个或多个... 阅读全文

posted @ 2019-01-30 19:22 卅先生阅读(424) 评论(0) 推荐(0)

摘要： HDFS 中一个简单的 Join查询，是否需要撸一大串代码？我只会SQL语句能不能入坑大数据？这里我们就来聊一聊 Hive。Hive 是什么？Hive 是一种数据仓库工具，不提供数据存储（数据还是存储在 HDFS 上），它能让你通过 SQL语句实现 Map... 阅读全文

posted @ 2019-01-30 11:49 卅先生阅读(417) 评论(0) 推荐(0)

入微者说