2020 年 3月 15 日随笔档案 - Tanglement

2020年3月15日

摘要： Spark集群上的运行 Spark集群采用的是主/从结构，主是驱动器节点driver，其他是工作节点executor，之间通过集群管理器来连接。驱动器在Spark应用有两个职责：把用户程序转为任务。转为多个物理执行的单元，即任务task。驱动器会按DAG图来执行，也会对DAG进行流水线优化，形成阅读全文

posted @ 2020-03-15 18:58 Tanglement 阅读(269) 评论(0) 推荐(0)

Hive优化

摘要：抓取 Hive中对于某些情况的查询可以不必使用MapReduce计算。例如SELECT，Hive可以简单读取对应的存储目录的文件信息。可以设置一些参数，全局查找、字段查找、limit查找等都不使用MapReduce。或者执行查询语句都执行MapReduce。本地模式在Hive处理的输入数据量很阅读全文

posted @ 2020-03-15 18:52 Tanglement 阅读(159) 评论(0) 推荐(0)

Hive自定义函数

摘要：自定义函数用户可以通过自定义UDF来方便的扩展（user defined function）。根据用户自定义函数类别，分别为一下三种： UDF，一进一出 UDAF，聚集函数，多进一出 UDTF，一进多出编程步骤 1. 继承org.apache.hadoop.hive.ql.UDF 2. 实现ev 阅读全文

posted @ 2020-03-15 10:47 Tanglement 阅读(364) 评论(0) 推荐(0)

公告