上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 17 下一页
摘要: Yarn 模式 与 电影受众分析系统 http://www.cnblogs.com/liuwei6/p/6627750.html yarn模式分为两种模式: 一、Yarn-cluster模式 1、通过spark-submit提交spark jar包(Application),与RM进行通信请求启动A 阅读全文
posted @ 2017-05-26 15:46 thinker1017 阅读(224) 评论(0) 推荐(0)
摘要: 一. 最小二乘法建立模型 关于最小二乘法矩阵分解,我们可以参阅: 一、矩阵分解模型。 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示: 其中,A(i,j)表示用户user i对物品item j的打分。但是,ALS 的核心就是下面这个假设:的打分矩 阅读全文
posted @ 2017-05-26 15:42 thinker1017 阅读(327) 评论(0) 推荐(0)
摘要: 1.序 距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT、论文、一些网络资源,希望对xgboost原理进行深入理解。(笔者在 阅读全文
posted @ 2017-05-26 15:21 thinker1017 阅读(2998) 评论(1) 推荐(0)
摘要: K-均值聚类 K-均值算法试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数),其形式化的目标函数称为类簇内的方差和(within cluster sum of squared errors,WCSS)。K-均值聚类的目的是最小化所有类簇中的方差之和。标准的K-均值算法初始化K个类中心(为 阅读全文
posted @ 2017-05-26 15:18 thinker1017 阅读(1354) 评论(0) 推荐(0)
摘要: 介绍 实现了一个简单的从实时日志文件监听,写入socket服务器,再接入Storm计算的一个流程。 源码 日志监听实时写入socket服务器 [java] view plain copy package socket; import java.io.BufferedReader; import ja 阅读全文
posted @ 2017-05-25 18:08 thinker1017 阅读(268) 评论(0) 推荐(0)
摘要: 输入: 日期 ...cookie id. ...商品id.. xx xx xx 输出: 商品id 商品id列表(按优先级排序,用逗号分隔) xx xx 比如: id1 id3,id0,id4,id2 id2 id0,id5 整个计算过程分为4步 1、提取原始日志日期,cookie id,商品id信息 阅读全文
posted @ 2017-05-25 17:58 thinker1017 阅读(263) 评论(0) 推荐(0)
摘要: 目的 实时监听多个目录下的日志文件,如有新文件切换到新文件,并同步写入kafka,同时记录日志文件的行位置,以应对进程异常退出,能从上次的文件位置开始读取(考虑到效率,这里是每100条记一次,可调整) 源码 [java] view plain copy import java.io.Buffered 阅读全文
posted @ 2017-05-25 17:51 thinker1017 阅读(486) 评论(0) 推荐(0)
摘要: 目的 实时监听某目录下的日志文件,如有新文件切换到新文件,并同步写入kafka,同时记录日志文件的行位置,以应对进程异常退出,能从上次的文件位置开始读取(考虑到效率,这里是每100条记一次,可调整) 源码: [java] view plain copy import java.io.Buffered 阅读全文
posted @ 2017-05-25 17:47 thinker1017 阅读(958) 评论(0) 推荐(0)
摘要: SDK1.7新增的nio WatchService能完美解决这个问题。美中不足是如果部署在window系统下会出现莫名其妙的文件夹占用异常导致子目录监听失效,linux下则完美运行。这个问题着实让人头疼。如果有童鞋找到问题根源请一起探讨。 这里简单的列出用Servlet实现的基本类供大家参考。首先是 阅读全文
posted @ 2017-05-25 17:32 thinker1017 阅读(2067) 评论(0) 推荐(1)
摘要: 目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍 impala与presto性能相当,SparkSql逊色不少。 目前看presto相比impal 阅读全文
posted @ 2017-05-25 17:13 thinker1017 阅读(7146) 评论(1) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 17 下一页