随笔分类 - 大数据框架
摘要:一. 最小二乘法建立模型 关于最小二乘法矩阵分解,我们可以参阅: 一、矩阵分解模型。 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示: 其中,A(i,j)表示用户user i对物品item j的打分。但是,ALS 的核心就是下面这个假设:的打分矩
阅读全文
摘要:使用SGD算法逻辑回归的垃圾邮件分类器 maven打包scala程序 所需要的依赖包配置是: 所需要的依赖包配置是: 配置的时候要注意spark 和 scala 的版本,可以打开spark-shell 观察: 配置完成后,在pom.xml 所在的目录运行命令: 如果mvn 下载 有问题,可以参考这篇
阅读全文
摘要:最新版的Impala时候关闭的时候无法关闭 Catalog Server和StateStore后台进程,导致错误如下: 解决方法,各个节点 lsof -i :25010 ,kill -9 PID
阅读全文
摘要:com.esotericsoftware.kryo.KryoException: java.lang.NullPointerExceptionSerialization trace:underlying (org.apache.spark.util.BoundedPriorityQueue) at
阅读全文
摘要:翻译自《Getting Started with Impala》 分布式查询 分布式查询是impala的核心。曾几何时,你需要研究并行计算,才能开始进行深奥而晦涩的操作。现在,有运行在Hadoop上面的Impala,你只需要...一台笔记本电脑。理想情况下,一个IT部门也会有运行着Cloudera
阅读全文
摘要:主框架图 见:http://r.photo.store.qq.com/psb?/V12VvuOZ2vxbmG/M2gzPWfnBLS8buBT*16Y2xm9QkAAp8TmePOlIPC1MlM!/r/dFMAAAAAAAAA 1.1 生成库——词频库、词语索引库 流程: 项目包: 1.1.1 生
阅读全文

浙公网安备 33010602011771号