Hoult丶吴邪

2020年12月6日

摘要：不是每个程序员天生对递归理解深刻，刚入大一时候，当别人写出第一个求最大公约数的递归函数时，对其多么的惊叹，竟然可以不用循环，竟然代码可以这么简洁，确实递归在大多数情况下实现时候代码很短，大部分人也知道递归，也能基本看懂递归，可是却经常不知道怎么写，或者写出来的递归经常死循环，写算法往往也是学的是套路阅读全文

posted @ 2020-12-06 15:54 Hoult丶吴邪阅读(923) 评论(0) 推荐(0)

使用Nginx做页面采集, Kafka收集到对应Topic

摘要： 0.架构简介模拟线上的实时流，比如用户的操作日志，采集到数据后，进行处理，暂时只考虑数据的采集，使用Html+Jquery+Nginx+Ngx_kafka_module+Kafka来实现，其中Ngx_kafka_module 是开源的专门用来对接Nginx和Kafka的一个组件。 1.需求描述 1 阅读全文

posted @ 2020-12-06 15:52 Hoult丶吴邪阅读(387) 评论(0) 推荐(0)

Flume-接入Hive数仓搭建流程

摘要：实时流接入数仓，基本在大公司都会有，在Flume1.8以后支持taildir source, 其有以下几个特点，而被广泛使用： 1.使用正则表达式匹配目录中的文件名 2.监控的文件中，一旦有数据写入，Flume就会将信息写入到指定的Sink 3.高可靠，不会丢失数据 4.不会对跟踪文件有任何处理，不阅读全文

posted @ 2020-12-06 15:50 Hoult丶吴邪阅读(379) 评论(0) 推荐(0)

Hadoop和spark为什么要对key进行排序

摘要： 1.思考只要对hadoop中mapreduce的原理清楚的都熟知下面的整个流程运行原理，其中涉及到至少三次排序，分别是溢写快速排序，溢写归并排序，reduce拉取归并排序，而且排序是默认的，即天然排序的，那么为什么要这么做的，设计原因是什么。先给个结论，为了整体更稳定，输出满足多数需求，前者体现在阅读全文

posted @ 2020-12-06 15:48 Hoult丶吴邪阅读(247) 评论(0) 推荐(0)

算法-双指针问题解决思路

摘要：算法中的双指针使用，有时候会觉得很巧妙，解决了很多的问题，有必要归纳总结一下，首先双指针也是个很宽泛的概念，它类似于遍历中的 i 和 j 但是其区别是，两个指针是同时移动的，即没有贡献复杂度从O(N) 到 O(N*N) ，所以被很多算法大佬所推崇，所以基于此归纳总结出双指针的常见解法和套路。 1.题阅读全文

posted @ 2020-12-06 15:46 Hoult丶吴邪阅读(431) 评论(0) 推荐(0)

基于done文件的数据监控-理论

摘要： 1 问题除了像Alibaba 的 Dataworks 外，很难有另外的公司能够把数据调度，数据监控，数据血缘，元数据管理等作为一体化的平台了，包括我司在内的一些厂，往往把这些建设独立开来，由不同的团队负责，其中数据平台调度功能是绝大多数公司都有的基础平台，但是调度的功能程度就各不同了，下面的问题当阅读全文

posted @ 2020-12-06 15:45 Hoult丶吴邪阅读(262) 评论(0) 推荐(0)

算法-一个经典sql 题和一个Java算法题

摘要： 1.sql题描述话说有一个日志表，只有两列，分别是连续id和num 至于啥意思，把它当金额把。现在想知道连续次数3次及以上的num，数据如下 id num 1 1 2 1 3 1 4 2 5 3 6 4 7 4 8 4 那么结果只有1，4满足条件，问这个sql该怎么写？ 2.思路和解法分析：题目阅读全文

posted @ 2020-12-06 15:43 Hoult丶吴邪阅读(203) 评论(0) 推荐(0)

大数据开发-Flume-频繁产生小文件原因和处理

摘要： 1.问题背景通过flume直接上传实时数据到hdfs，会常遇到的一个问题就是小文件，需要调参数来设置，往往在生产环境参数大小也不同 1.flume滚动配置为何不起作用？ 2.通过源码分析得出什么原因？ 3.该如何解决flume小文件？ 2. 过程分析接着上一篇，https://blog.csdn 阅读全文

posted @ 2020-12-06 15:42 Hoult丶吴邪阅读(817) 评论(1) 推荐(0)

大数据开发-Hive-常用日期函数&&日期连续题sql套路

摘要：前面是常用日期函数总结，后面是一道连续日期的sql题目及其解法套路。 1.当前日期和时间 select current_timestamp -- 2020-12-05 19:16:29.284 2.获取当前日期，当前是 2020-12-05 SELECT current_date; ## OR SE 阅读全文

posted @ 2020-12-06 15:37 Hoult丶吴邪阅读(1441) 评论(0) 推荐(0)

2020年10月9日

MapReduce怎么优雅地实现全局排序

摘要：想到全局排序，是否第一想到的是，从map端收集数据，shuffle到reduce来，设置一个reduce，再对reduce中的数据排序，显然这样和单机器并没有什么区别，要知道mapreduce框架默认是对key来排序的，当然也可以将value放到key上面来达到对value排序，最后在reduce时候对调回去，另外排序是针对相同分区，即一个reduce来排序的，这样其实也不能充分运用到集群的并行，那么如何更优雅地实现全局排序呢？阅读全文

posted @ 2020-10-09 18:04 Hoult丶吴邪阅读(278) 评论(0) 推荐(0)

A lot can happen between now and never.

公告