上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: 决策树类模型 ml中的classification和regression主要基于以下几类: classification:决策树及其相关的集成算法,Logistics回归,多层感知模型; regression:决策树及其相关集成算法,线性回归。 主要的模型有两类:线性模型\(GLM\)和决策树: 其 阅读全文
posted @ 2017-11-02 11:24 wlu 阅读(737) 评论(0) 推荐(0) 编辑
摘要: 并行FP Growth算法思路 上图的单线程形成的FP Tree。 分布式算法事实上是对FP Tree进行分割,分而治之 首先,假设我们只关心...|c这个conditional transaction,那么可以把每个transaction中的...|c保留,并发送到一个计算节点中,必然能在该计算节 阅读全文
posted @ 2017-11-01 22:23 wlu 阅读(1072) 评论(0) 推荐(0) 编辑
摘要: 算法跟传统的kmeans的区别主要在于:kmeans||的k个中心的不是随机初始化的。而是选择了k个彼此“足够”分离的中心。 This is a variant of k means++ that tries to find dissimilar cluster centers by startin 阅读全文
posted @ 2017-11-01 15:43 wlu 阅读(203) 评论(0) 推荐(0) 编辑
摘要: ref: https://jaceklaskowski.gitbooks.io/spark structured streaming/ StruncturedStream的statefule实现基于StateStore,能够记忆历史的结果,从而形成unbounded流式计算。其内部实际上是将历史的统 阅读全文
posted @ 2017-10-26 11:15 wlu 阅读(662) 评论(0) 推荐(0) 编辑
摘要: ❤Limitations of DStream API Batch Time Constraint application级别的设置。 不支持EventTime event time 比process time更重要 Weak support for Dataset/Dataframe No cus 阅读全文
posted @ 2017-10-25 16:06 wlu 阅读(1299) 评论(0) 推荐(0) 编辑
摘要: netcat (windows) nc L p 9999 Result: 窗口移动5秒,窗口宽度10秒。 聚合维度: window, {world} http://asyncified.io/2017/07/30/exploring stateful streaming with spark str 阅读全文
posted @ 2017-10-24 15:58 wlu 阅读(741) 评论(0) 推荐(0) 编辑
摘要: 调用Nndl实现的神经网络code,用ANN拟合二次方程。 ref: https://github.com/mnielsen/neural networks and deep learning 准备训练数据 训练网络 a=[] f=[] for xi in np.array(xrange(0,100 阅读全文
posted @ 2017-10-20 13:36 wlu 阅读(2602) 评论(0) 推荐(0) 编辑
摘要: 引言 本文基于Spark (1.5.0) ml库提供的pipeline完整地实践一次文本分类。pipeline将串联单词分割(tokenize)、单词频数统计(TF),特征向量计算(TF IDF),朴素贝叶斯(Naive Bayes)模型训练等。 本文将基于 "“20 NewsGroups”" 数据 阅读全文
posted @ 2017-10-20 13:19 wlu 阅读(295) 评论(0) 推荐(0) 编辑
摘要: In this article, we discuss the necessity of segregate data model for read and write and use event sourcing for capture detailed data changing. These 阅读全文
posted @ 2017-10-20 13:18 wlu 阅读(3788) 评论(0) 推荐(0) 编辑
摘要: 在一些特定场景,例如streamingRDD需要和历史数据进行join从而获得一些profile信息,此时形成较小的新数据RDD和很大的历史RDD的join。 Spark中直接join实际上效率不高: RDD没有索引,join操作实际上是相互join的RDD进行hash然后shuffle到一起; 实 阅读全文
posted @ 2017-10-20 13:13 wlu 阅读(533) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页