摘要:
Spark集群上的运行 Spark集群采用的是主/从结构,主是驱动器节点driver,其他是工作节点executor,之间通过集群管理器来连接。 驱动器在Spark应用有两个职责: 把用户程序转为任务。转为多个物理执行的单元,即任务task。驱动器会按DAG图来执行,也会对DAG进行流水线优化,形成 阅读全文
posted @ 2020-03-15 18:58
Tanglement
阅读(269)
评论(0)
推荐(0)
摘要:
抓取 Hive中对于某些情况的查询可以不必使用MapReduce计算。例如SELECT,Hive可以简单读取对应的存储目录的文件信息。 可以设置一些参数,全局查找、字段查找、limit查找等都不使用MapReduce。或者执行查询语句都执行MapReduce。 本地模式 在Hive处理的输入数据量很 阅读全文
posted @ 2020-03-15 18:52
Tanglement
阅读(159)
评论(0)
推荐(0)
摘要:
自定义函数 用户可以通过自定义UDF来方便的扩展(user defined function)。根据用户自定义函数类别,分别为一下三种: UDF,一进一出 UDAF,聚集函数,多进一出 UDTF,一进多出 编程步骤 1. 继承org.apache.hadoop.hive.ql.UDF 2. 实现ev 阅读全文
posted @ 2020-03-15 10:47
Tanglement
阅读(364)
评论(0)
推荐(0)
浙公网安备 33010602011771号