thinker1017 - 博客园

2017年5月26日

摘要： Yarn 模式与电影受众分析系统 http://www.cnblogs.com/liuwei6/p/6627750.html yarn模式分为两种模式：一、Yarn-cluster模式 1、通过spark-submit提交spark jar包（Application）,与RM进行通信请求启动A 阅读全文

posted @ 2017-05-26 15:46 thinker1017 阅读(224) 评论(0) 推荐(0)

Spark机器学习之推荐引擎

摘要：一. 最小二乘法建立模型关于最小二乘法矩阵分解，我们可以参阅：一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n)，表示m个用户对n各物品的打分情况。如下图所示：其中，A(i,j)表示用户user i对物品item j的打分。但是，ALS 的核心就是下面这个假设：的打分矩阅读全文

posted @ 2017-05-26 15:42 thinker1017 阅读(327) 评论(0) 推荐(0)

xgboost原理

摘要： 1.序距离上一次编辑将近10个月，幸得爱可可老师（微博）推荐，访问量陡增。最近毕业论文与xgboost相关，于是重新写一下这篇文章。关于xgboost的原理网络上的资源很少，大多数还停留在应用层面，本文通过学习陈天奇博士的PPT、论文、一些网络资源，希望对xgboost原理进行深入理解。（笔者在阅读全文

posted @ 2017-05-26 15:21 thinker1017 阅读(3007) 评论(1) 推荐(0)

K-均值聚类——电影类型

摘要： K-均值聚类 K-均值算法试图将一系列样本分割成K个不同的类簇（其中K是模型的输入参数），其形式化的目标函数称为类簇内的方差和（within cluster sum of squared errors，WCSS）。K-均值聚类的目的是最小化所有类簇中的方差之和。标准的K-均值算法初始化K个类中心（为阅读全文

posted @ 2017-05-26 15:18 thinker1017 阅读(1367) 评论(0) 推荐(0)

2017年5月25日

storm实时计算实例（socket实时接入)

摘要：介绍实现了一个简单的从实时日志文件监听，写入socket服务器，再接入Storm计算的一个流程。源码日志监听实时写入socket服务器 [java] view plain copy package socket; import java.io.BufferedReader; import ja 阅读全文

posted @ 2017-05-25 18:08 thinker1017 阅读(270) 评论(0) 推荐(0)

mapreduce实现"浏览该商品的人大多数还浏览了"经典应用

摘要：输入: 日期 ...cookie id. ...商品id.. xx xx xx 输出: 商品id 商品id列表(按优先级排序,用逗号分隔) xx xx 比如: id1 id3,id0,id4,id2 id2 id0,id5 整个计算过程分为4步 1、提取原始日志日期,cookie id,商品id信息阅读全文

posted @ 2017-05-25 17:58 thinker1017 阅读(265) 评论(0) 推荐(0)

java实时监听日志写入kafka(多目录)

摘要：目的实时监听多个目录下的日志文件，如有新文件切换到新文件，并同步写入kafka，同时记录日志文件的行位置，以应对进程异常退出，能从上次的文件位置开始读取（考虑到效率，这里是每100条记一次，可调整) 源码 [java] view plain copy import java.io.Buffered 阅读全文

posted @ 2017-05-25 17:51 thinker1017 阅读(488) 评论(0) 推荐(0)

java实时监听日志写入kafka

摘要：目的实时监听某目录下的日志文件，如有新文件切换到新文件，并同步写入kafka，同时记录日志文件的行位置，以应对进程异常退出，能从上次的文件位置开始读取（考虑到效率，这里是每100条记一次，可调整) 源码: [java] view plain copy import java.io.Buffered 阅读全文

posted @ 2017-05-25 17:47 thinker1017 阅读(959) 评论(0) 推荐(0)

Java实现系统目录实时监听更新。

摘要： SDK1.7新增的nio WatchService能完美解决这个问题。美中不足是如果部署在window系统下会出现莫名其妙的文件夹占用异常导致子目录监听失效，linux下则完美运行。这个问题着实让人头疼。如果有童鞋找到问题根源请一起探讨。这里简单的列出用Servlet实现的基本类供大家参考。首先是阅读全文

posted @ 2017-05-25 17:32 thinker1017 阅读(2070) 评论(0) 推荐(1)

impala presto SparkSql性能测试对比

摘要：目标是为测试impala presto SparkSql谁的性能更佳，以下结果底层查询的都是普通textfile snappy压缩后数据，规模为15台机器，若以orcfile、parquet速度能快数倍 impala与presto性能相当，SparkSql逊色不少。目前看presto相比impal 阅读全文

posted @ 2017-05-25 17:13 thinker1017 阅读(7152) 评论(1) 推荐(0)

公告