摘要:
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。 阅读全文
posted @ 2020-06-12 22:45
罗西的思考
阅读(1823)
评论(0)
推荐(1)
摘要:
Groupby和reduce是大数据领域常见的算子,但是很多同学应该对其背后机制不甚了解。本文将从源码入手,为大家解析Flink中Groupby和reduce的原理,看看他们在背后做了什么。 阅读全文
posted @ 2020-06-09 20:28
罗西的思考
阅读(5366)
评论(0)
推荐(0)
摘要:
本文提出了一种用Redis实现简单消息队列的方案,适合在资源不足的条件下临时使用。 阅读全文
posted @ 2020-06-07 22:15
罗西的思考
阅读(906)
评论(1)
推荐(1)
摘要:
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。本文将为大家展现Alink如何实现TF-IDF。 阅读全文
posted @ 2020-06-05 21:52
罗西的思考
阅读(1728)
评论(0)
推荐(1)
摘要:
自从函数式编程和响应式编程逐渐进入到程序员的生活之后,map函数作为其中一个重要算子也为大家所熟知,无论是前端web开发,手机开发还是后端服务器开发,都很难逃过它的手心。而在大数据领域中又往往可以见到另外一个算子mapPartition的身影。在性能调优中,经常会被建议尽量用 mappartition 操作去替代 map 操作。本文将从Flink源码和示例入手,为大家解析为什么mapPartition比map更高效。 阅读全文
posted @ 2020-06-02 21:47
罗西的思考
阅读(1365)
评论(0)
推荐(1)
浙公网安备 33010602011771号