随笔分类 -  大数据框架

摘要:一. 最小二乘法建立模型 关于最小二乘法矩阵分解,我们可以参阅: 一、矩阵分解模型。 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示: 其中,A(i,j)表示用户user i对物品item j的打分。但是,ALS 的核心就是下面这个假设:的打分矩 阅读全文
posted @ 2016-06-08 14:50 小爷 阅读(11867) 评论(3) 推荐(2)
摘要:使用SGD算法逻辑回归的垃圾邮件分类器 maven打包scala程序 所需要的依赖包配置是: 所需要的依赖包配置是: 配置的时候要注意spark 和 scala 的版本,可以打开spark-shell 观察: 配置完成后,在pom.xml 所在的目录运行命令: 如果mvn 下载 有问题,可以参考这篇 阅读全文
posted @ 2016-06-03 14:29 小爷 阅读(8000) 评论(0) 推荐(0)
摘要:最新版的Impala时候关闭的时候无法关闭 Catalog Server和StateStore后台进程,导致错误如下: 解决方法,各个节点 lsof -i :25010 ,kill -9 PID 阅读全文
posted @ 2016-05-31 20:01 小爷 阅读(2332) 评论(0) 推荐(0)
摘要:com.esotericsoftware.kryo.KryoException: java.lang.NullPointerExceptionSerialization trace:underlying (org.apache.spark.util.BoundedPriorityQueue) at 阅读全文
posted @ 2016-05-24 10:55 小爷 阅读(1679) 评论(0) 推荐(0)
摘要:翻译自《Getting Started with Impala》 分布式查询 分布式查询是impala的核心。曾几何时,你需要研究并行计算,才能开始进行深奥而晦涩的操作。现在,有运行在Hadoop上面的Impala,你只需要...一台笔记本电脑。理想情况下,一个IT部门也会有运行着Cloudera 阅读全文
posted @ 2016-05-16 19:34 小爷 阅读(2030) 评论(0) 推荐(0)
摘要:主框架图 见:http://r.photo.store.qq.com/psb?/V12VvuOZ2vxbmG/M2gzPWfnBLS8buBT*16Y2xm9QkAAp8TmePOlIPC1MlM!/r/dFMAAAAAAAAA 1.1 生成库——词频库、词语索引库 流程: 项目包: 1.1.1 生 阅读全文
posted @ 2016-03-06 09:13 小爷 阅读(1502) 评论(1) 推荐(1)