摘要: Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。 阅读全文
posted @ 2020-06-12 22:45 罗西的思考 阅读(1823) 评论(0) 推荐(1)
摘要: Groupby和reduce是大数据领域常见的算子,但是很多同学应该对其背后机制不甚了解。本文将从源码入手,为大家解析Flink中Groupby和reduce的原理,看看他们在背后做了什么。 阅读全文
posted @ 2020-06-09 20:28 罗西的思考 阅读(5366) 评论(0) 推荐(0)
摘要: 本文提出了一种用Redis实现简单消息队列的方案,适合在资源不足的条件下临时使用。 阅读全文
posted @ 2020-06-07 22:15 罗西的思考 阅读(906) 评论(1) 推荐(1)
摘要: Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。本文将为大家展现Alink如何实现TF-IDF。 阅读全文
posted @ 2020-06-05 21:52 罗西的思考 阅读(1728) 评论(0) 推荐(1)
摘要: 自从函数式编程和响应式编程逐渐进入到程序员的生活之后,map函数作为其中一个重要算子也为大家所熟知,无论是前端web开发,手机开发还是后端服务器开发,都很难逃过它的手心。而在大数据领域中又往往可以见到另外一个算子mapPartition的身影。在性能调优中,经常会被建议尽量用 mappartition 操作去替代 map 操作。本文将从Flink源码和示例入手,为大家解析为什么mapPartition比map更高效。 阅读全文
posted @ 2020-06-02 21:47 罗西的思考 阅读(1365) 评论(0) 推荐(1)
摘要: 本文将为大家讲解GBDT这个机器学习中非常重要的算法。因为这个算法属于若干算法或者若干思想的结合,所以很难找到一个现实世界的通俗例子来讲解,所以只能少用数学公式来尽量减少理解难度。 阅读全文
posted @ 2020-05-30 04:49 罗西的思考 阅读(2392) 评论(0) 推荐(0)
摘要: Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。迭代算法在很多数据分析领域会用到,比如机器学习或者图计算。本文将通过Superstep入手看看Alink是如何利用Flink迭代API来实现具体算法。 阅读全文
posted @ 2020-05-30 04:12 罗西的思考 阅读(1800) 评论(0) 推荐(0)
摘要: Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将从模型角度入手带领大家来再次深入Alink。 阅读全文
posted @ 2020-05-23 08:19 罗西的思考 阅读(1421) 评论(1) 推荐(1)
摘要: Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将带领大家来分析Alink中通讯模型AllReduce的实现。AllReduce在Alink中应用较多,比如KMeans,LDA,Word2Vec,GD,lbfgs,Newton method,owlqn,SGD,Gbdt, random forest都用到了这个通讯模型。 阅读全文
posted @ 2020-05-16 09:17 罗西的思考 阅读(2649) 评论(0) 推荐(2)
摘要: Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文是漫谈系列的第二篇,将从源码入手,带领大家具体剖析Alink是如何设计的,其架构如何。 阅读全文
posted @ 2020-05-10 09:10 罗西的思考 阅读(3110) 评论(1) 推荐(3)