摘要: 1.本福特定律   2.商品推荐的惊喜度   3.贝叶斯学派和频率学派   4.指数分布族   5.期望   6.方差   7.协方差   8.皮尔逊相关系数 阅读全文
posted @ 2017-01-08 18:05 混沌战神阿瑞斯 阅读(625) 评论(0) 推荐(1) 编辑
摘要: python scikit-learn 环境搭建问题解决记录 阅读全文
posted @ 2017-01-07 23:55 混沌战神阿瑞斯 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 1.平均值   1.1 全局平均值   1.2 用户评分平均值   1.3 物品评分平均值   1.4 用户分类对物品分类的平均值   分类方法:     1.4.1 平均值分类     1.4.2 活跃度/流行度分类 2.基于邻域的方法   2.1 基于用户的协同过滤   2.2 基于物品的协同过滤   相似度计算方法选择:     基于共现矩阵的相似度     余弦相似度     3.隐语义模型与矩阵分解模型   3.1 ALS 矩阵分解模型   4.加入时间因素   1.基于邻域的模型融合时间信息 5.模型融合   1.级联方式   2.加权融合 阅读全文
posted @ 2017-01-07 23:54 混沌战神阿瑞斯 阅读(886) 评论(0) 推荐(0) 编辑
摘要: 以上两个join接口都是调用的这个方法: rdd.join的实现:rdd1.join(rdd2) => rdd1.cogroup(rdd2,partitioner) 这是CoGroupedRDD的类声明,其中有两个与java 语法的不同: 1.类型声明中的小于号“<”,这个在scala 中叫做变量类 阅读全文
posted @ 2017-01-07 23:52 混沌战神阿瑞斯 阅读(1711) 评论(0) 推荐(0) 编辑
摘要: 1.大数定律: 2.中心极限定理 3.参数估计 阅读全文
posted @ 2017-01-07 21:31 混沌战神阿瑞斯 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.常见的距离算法     1.1欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean distance)     1.2马哈拉诺比斯距离(Mahalanobis Distance)     1.3曼哈顿距离(Manhattan Distance)     1.4切比雪夫距离(Chebyshev Distance)     1.5明可夫斯基距离(Minkowski Distance)     1.6海明距离(Hamming distance)    2.常见的相似度(系数)算法     2.1余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)     2.2皮尔森相关系数(Pearson Correlation Coefficient)     2.3Jaccard相似系数(Jaccard Coefficient)     2.4Tanimoto系数(广义Jaccar 阅读全文
posted @ 2017-01-06 16:47 混沌战神阿瑞斯 阅读(48719) 评论(0) 推荐(6) 编辑
摘要: 摘要:   1.定义   2.常见算法   3.特性   4.优缺点 阅读全文
posted @ 2016-12-22 23:07 混沌战神阿瑞斯 阅读(1440) 评论(0) 推荐(0) 编辑
摘要: 1.jvm 默认编码:Java的默认编码 2.jvm heap : Java虚拟机的内存组成以及堆内存介绍 3.jvm heap:Java命令学习系列(零)——常见命令及Java Dump介绍 4.jvm heap:Java命令学习系列(二)——Jstack 5.Java GC工作原理 6.Java开发必须掌握的线上问题排查命令 阅读全文
posted @ 2016-12-21 10:50 混沌战神阿瑞斯 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.背景   2.rangeBounds 上边界数组源码走读   3.RangePartitioner的sketch 源码走读   4.determineBounds 源码走读   5.关于RangePartitioner和sortByKey实验 阅读全文
posted @ 2016-12-20 16:32 混沌战神阿瑞斯 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1、Operation category READ is not supported in state standby   2、配置spark.deploy.recoveryMode选项为ZOOKEEPER   3、多Master如何配置   4、No Space Left on the device(Shuffle临时文件过多)   5、java.lang.OutOfMemory, unable to create new native thread   6、Worker节点中的work目录占用许多磁盘空间   7、spark-shell提交Spark Application如何解决依赖库   8、Spark在发布应用的时候,出现连接不上master问题   9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800   10、spark-shell 找不到hadoop 阅读全文
posted @ 2016-12-19 16:52 混沌战神阿瑞斯 阅读(35655) 评论(2) 推荐(2) 编辑
摘要: 1.spark core :Spark RDD 核心总结;Spark算子选择策略;spark 核心作业调度和任务调度;spark参数调优 ;Spark 运行架构核心总结;Spark Shuffle原理、Shuffle操作问题解决和参数调优 2.spark sql 或者SQL 方面:这方面一直没有机会 阅读全文
posted @ 2016-12-18 20:14 混沌战神阿瑞斯 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子   6.适用场合 阅读全文
posted @ 2016-12-17 20:51 混沌战神阿瑞斯 阅读(2267) 评论(0) 推荐(0) 编辑
摘要: 分类解读Spark下的39个机器学习:http://www.wtoutiao.com/p/X8ftr1.html JVM 调优系列:http://www.cnblogs.com/duanxz/p/6098910.html 算法OJ(C++ 实现) :https://www.julyedu.com/video/play/27 ######################### 机器学习相关 ############################### hinton 的神经网络公开课 : https://www.coursera.org/learn/neural-networks MIT Deep Learning by Ian Goodfellow Yoshua Bengio Aaron Courville : 英文pdf;中文翻译 阅读全文
posted @ 2016-12-17 20:45 混沌战神阿瑞斯 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子   6.适用场合 阅读全文
posted @ 2016-12-16 16:38 混沌战神阿瑞斯 阅读(1977) 评论(0) 推荐(0) 编辑
摘要: 摘要: 内容: 我的github 源代码:https://github.com/Tongzhenguo/Python-Project/blob/master/learntoscikit/preprocessing/demo.py 阅读全文
posted @ 2016-12-07 18:01 混沌战神阿瑞斯 阅读(863) 评论(0) 推荐(0) 编辑
摘要: 摘要: 1.特征选择的功能 2.封装特征选择(Wapper Feature Select) 3.过滤特征选择(Filter Feature Select) 4.嵌入特征选择(Embeding Feature Select) 内容: 1.特征选择的功能 2.封装特征选择(Wapper Feature 阅读全文
posted @ 2016-12-06 23:38 混沌战神阿瑞斯 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.相关环境   2.代码例子 阅读全文
posted @ 2016-12-02 18:29 混沌战神阿瑞斯 阅读(2758) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.所需工具   2.详细过程   3.验证 4.使用指南 5.模型调优 阅读全文
posted @ 2016-12-02 11:31 混沌战神阿瑞斯 阅读(2446) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.示例   2.模型主要参数   3.模型主要属性变量 阅读全文
posted @ 2016-11-28 13:40 混沌战神阿瑞斯 阅读(5879) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.pipeline 模式     1.1相关概念     1.2代码示例   2.特征提取,转换以及特征选择     2.1特征提取     2.2特征转换     2.3特征选择   3.模型选择与参数选择     3.1 交叉验证     3.2 训练集-测试集 切分 阅读全文
posted @ 2016-11-25 18:27 混沌战神阿瑞斯 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: 传送门:http://www.runoob.com/python/python-object.html 阅读全文
posted @ 2016-11-20 20:06 混沌战神阿瑞斯 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.外围架构   2.推荐系统架构 阅读全文
posted @ 2016-11-19 19:50 混沌战神阿瑞斯 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 摘要:   1.用户满意度     在线测评方法   2.预测准确率    2.1评分预测    2.2TopN推荐   3.覆盖率(coverage)   4.多样性   5.新颖性 阅读全文
posted @ 2016-11-16 23:23 混沌战神阿瑞斯 阅读(3435) 评论(0) 推荐(0) 编辑
摘要: 摘要:  1 shuffle原理   1.1 mapreduce的shuffle原理     1.1.1 map task端操作     1.1.2 reduce task端操作    1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决    2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决 2.3 数据倾斜解决方案 3 spark RDD中的shuffle算子 3.1 去重 3.2 聚合 3.3 排序 3.4 重分区 4 spark shuffle参数调优 阅读全文
posted @ 2016-11-11 16:55 混沌战神阿瑞斯 阅读(31018) 评论(8) 推荐(2) 编辑
摘要: 摘要   一、创建对象        二、查看数据   三、选择和设置   四、缺失值处理   五、相关操作   六、聚合   七、重排(Reshaping)   八、时间序列      九、Categorical类型   十、画图 十一、导入和保存数据 阅读全文
posted @ 2016-11-05 22:51 混沌战神阿瑞斯 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 摘要:       1.Java的默认编码 阅读全文
posted @ 2016-11-04 15:55 混沌战神阿瑞斯 阅读(1170) 评论(0) 推荐(0) 编辑
摘要: 摘要   1.num-executors   2.executor-memory   3.executor-cores   4.driver-memory   5.spark.default.parallelism   6.spark.storage.memoryFraction   7.spark.shuffle.memoryFraction   8.资源参数参考示例 阅读全文
posted @ 2016-11-03 23:04 混沌战神阿瑞斯 阅读(13993) 评论(0) 推荐(3) 编辑
摘要: 摘要:   1.spark 提供的持久化方法   2.Spark的持久化级别   3.如何选择一种最合适的持久化策略 阅读全文
posted @ 2016-11-03 21:47 混沌战神阿瑞斯 阅读(1024) 评论(0) 推荐(1) 编辑
摘要: 摘要:最近在看《机器学习实战》,在code的过程中总是会报一些小错误,所以发下debug过的地方;由于是跳着看的,所以只是其中一部分,希望之后能把这本书我遇见的全部错误都在此更正下。 阅读全文
posted @ 2016-10-29 18:13 混沌战神阿瑞斯 阅读(399) 评论(0) 推荐(0) 编辑
摘要: RDD.Action触发SparkContext.run,这里举最简单的例子rdd.count() 阅读全文
posted @ 2016-10-28 18:19 混沌战神阿瑞斯 阅读(1719) 评论(0) 推荐(0) 编辑
摘要: 三、MapReduce运行原理 1、Map过程简述: 1)读取数据文件内容,对每一行内容解析成<k1,v1>键值对,每个键值对调用一次map函数 2)编写映射函数处理逻辑,将输入的<k1,v1>转换成新的<k2,v2> 3)对输出的<k2,v2>按reducer个数和分区规则进行分区 4)不同的分区 阅读全文
posted @ 2016-10-27 11:31 混沌战神阿瑞斯 阅读(3634) 评论(0) 推荐(1) 编辑
摘要: 前言:本文是本人学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,如果在阅读中发现内容或者只是阐述有问题的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com 摘要:   1.作业调度核心——DAGScheduler 2.DAGScheduler类说明     2.1DAGScheduler     2.2ActiveJob     2.3Stage     2.4Task   3.工作流程     3.1划分Stage     3.2生成Job,提交Stage     3.3任务集的提交     3.4任务作业完成状态的监控     3.5任务结果的获取 阅读全文
posted @ 2016-10-17 17:16 混沌战神阿瑞斯 阅读(4569) 评论(0) 推荐(0) 编辑
摘要: 5.1.1. Using Lists as Stacks The list methods make it very easy to use a list as a stack, where the last element added is the first element retrieved 阅读全文
posted @ 2016-10-15 13:18 混沌战神阿瑞斯 阅读(3504) 评论(0) 推荐(0) 编辑
摘要: 摘要: 1.基本术语 2.运行架构 2.1基本架构 2.2运行流程   2.3相关的类   2.4调度模块: 2.4.1作业调度简介 2.4.2任务调度简介 2.5 RDD运行原理 3.运行模式 3.1 standalone模式 阅读全文
posted @ 2016-10-14 16:49 混沌战神阿瑞斯 阅读(3277) 评论(0) 推荐(0) 编辑
摘要: 在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。 阅读全文
posted @ 2016-10-10 18:54 混沌战神阿瑞斯 阅读(3062) 评论(0) 推荐(0) 编辑
摘要: 噪音和降噪 阅读全文
posted @ 2016-10-09 14:56 混沌战神阿瑞斯 阅读(1488) 评论(0) 推荐(0) 编辑
摘要: 在看李航的《统计学习方法时》提到了NP完全问题,于是摆之。 阅读全文
posted @ 2016-10-07 11:33 混沌战神阿瑞斯 阅读(490) 评论(0) 推荐(0) 编辑