摘要:        
1.本福特定律
  2.商品推荐的惊喜度
  3.贝叶斯学派和频率学派
  4.指数分布族
  5.期望
  6.方差
  7.协方差
  8.皮尔逊相关系数    
阅读全文
 
        
        posted @ 2017-01-08 18:05
混沌战神阿瑞斯
阅读(661)
推荐(1)
        
 
		
    
        
        
摘要:        
python scikit-learn 环境搭建问题解决记录    
阅读全文
 
        
        posted @ 2017-01-07 23:55
混沌战神阿瑞斯
阅读(355)
推荐(0)
        
            
        
        
摘要:        
1.平均值
  1.1 全局平均值
  1.2 用户评分平均值
  1.3 物品评分平均值
  1.4 用户分类对物品分类的平均值
  分类方法:
    1.4.1 平均值分类
    1.4.2 活跃度/流行度分类
2.基于邻域的方法
  2.1 基于用户的协同过滤
  2.2 基于物品的协同过滤
  相似度计算方法选择:
    基于共现矩阵的相似度
    余弦相似度    
3.隐语义模型与矩阵分解模型
  3.1 ALS 矩阵分解模型  
4.加入时间因素
  1.基于邻域的模型融合时间信息
5.模型融合
  1.级联方式
  2.加权融合    
阅读全文
 
        
        posted @ 2017-01-07 23:54
混沌战神阿瑞斯
阅读(898)
推荐(0)
        
            
        
        
摘要:        
以上两个join接口都是调用的这个方法: rdd.join的实现:rdd1.join(rdd2) => rdd1.cogroup(rdd2,partitioner) 这是CoGroupedRDD的类声明,其中有两个与java 语法的不同: 1.类型声明中的小于号“<”,这个在scala 中叫做变量类    
阅读全文
 
        
        posted @ 2017-01-07 23:52
混沌战神阿瑞斯
阅读(1734)
推荐(0)
        
            
        
        
摘要:        
1.大数定律:
2.中心极限定理
3.参数估计    
阅读全文
 
        
        posted @ 2017-01-07 21:31
混沌战神阿瑞斯
阅读(554)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.常见的距离算法
    1.1欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean distance)
    1.2马哈拉诺比斯距离(Mahalanobis Distance)
    1.3曼哈顿距离(Manhattan Distance)
    1.4切比雪夫距离(Chebyshev Distance)
    1.5明可夫斯基距离(Minkowski Distance)
    1.6海明距离(Hamming distance)
   2.常见的相似度(系数)算法
    2.1余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)
    2.2皮尔森相关系数(Pearson Correlation Coefficient)
    2.3Jaccard相似系数(Jaccard Coefficient)
    2.4Tanimoto系数(广义Jaccar    
阅读全文
 
        
        posted @ 2017-01-06 16:47
混沌战神阿瑞斯
阅读(50404)
推荐(6)
        
 
		
    
        
        
摘要:        
摘要:
  1.定义
  2.常见算法
  3.特性
  4.优缺点    
阅读全文
 
        
        posted @ 2016-12-22 23:07
混沌战神阿瑞斯
阅读(1587)
推荐(0)
        
 
		
    
        
        
摘要:        
1.jvm 默认编码:Java的默认编码
2.jvm heap : Java虚拟机的内存组成以及堆内存介绍
3.jvm heap:Java命令学习系列(零)——常见命令及Java Dump介绍
4.jvm heap:Java命令学习系列(二)——Jstack
5.Java GC工作原理 
6.Java开发必须掌握的线上问题排查命令    
阅读全文
 
        
        posted @ 2016-12-21 10:50
混沌战神阿瑞斯
阅读(210)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.背景
  2.rangeBounds 上边界数组源码走读
  3.RangePartitioner的sketch 源码走读
  4.determineBounds 源码走读
  5.关于RangePartitioner和sortByKey实验    
阅读全文
 
        
        posted @ 2016-12-20 16:32
混沌战神阿瑞斯
阅读(1891)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1、Operation category READ is not supported in state standby
  2、配置spark.deploy.recoveryMode选项为ZOOKEEPER
  3、多Master如何配置
  4、No Space Left on the device(Shuffle临时文件过多)
  5、java.lang.OutOfMemory, unable to create new native thread
  6、Worker节点中的work目录占用许多磁盘空间
  7、spark-shell提交Spark Application如何解决依赖库
  8、Spark在发布应用的时候,出现连接不上master问题
  9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
  10、spark-shell 找不到hadoop    
阅读全文
 
        
        posted @ 2016-12-19 16:52
混沌战神阿瑞斯
阅读(36036)
推荐(2)
        
 
		
    
        
        
摘要:        
1.spark core :Spark RDD 核心总结;Spark算子选择策略;spark 核心作业调度和任务调度;spark参数调优 ;Spark 运行架构核心总结;Spark Shuffle原理、Shuffle操作问题解决和参数调优 2.spark sql 或者SQL 方面:这方面一直没有机会    
阅读全文
 
        
        posted @ 2016-12-18 20:14
混沌战神阿瑞斯
阅读(199)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.算法概述
  2.算法推导
  3.算法特性及优缺点
  4.注意事项
  5.实现和具体例子
  6.适用场合    
阅读全文
 
        
        posted @ 2016-12-17 20:51
混沌战神阿瑞斯
阅读(2326)
推荐(0)
        
            
        
        
摘要:        
分类解读Spark下的39个机器学习:http://www.wtoutiao.com/p/X8ftr1.html
JVM 调优系列:http://www.cnblogs.com/duanxz/p/6098910.html
算法OJ(C++ 实现) :https://www.julyedu.com/video/play/27 
######################### 机器学习相关 ###############################
hinton 的神经网络公开课 : https://www.coursera.org/learn/neural-networks
MIT Deep Learning by Ian Goodfellow Yoshua Bengio Aaron Courville : 英文pdf;中文翻译    
阅读全文
 
        
        posted @ 2016-12-17 20:45
混沌战神阿瑞斯
阅读(345)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.算法概述
  2.算法推导
  3.算法特性及优缺点
  4.注意事项
  5.实现和具体例子
  6.适用场合    
阅读全文
 
        
        posted @ 2016-12-16 16:38
混沌战神阿瑞斯
阅读(2024)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要: 内容: 我的github 源代码:https://github.com/Tongzhenguo/Python-Project/blob/master/learntoscikit/preprocessing/demo.py    
阅读全文
 
        
        posted @ 2016-12-07 18:01
混沌战神阿瑞斯
阅读(915)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要: 1.特征选择的功能 2.封装特征选择(Wapper Feature Select) 3.过滤特征选择(Filter Feature Select) 4.嵌入特征选择(Embeding Feature Select) 内容: 1.特征选择的功能 2.封装特征选择(Wapper Feature     
阅读全文
 
        
        posted @ 2016-12-06 23:38
混沌战神阿瑞斯
阅读(670)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.相关环境
  2.代码例子    
阅读全文
 
        
        posted @ 2016-12-02 18:29
混沌战神阿瑞斯
阅读(2794)
推荐(0)
        
            
        
        
摘要:        
摘要:
  1.所需工具
  2.详细过程
  3.验证
    4.使用指南
    
    5.模型调优    
阅读全文
 
        
        posted @ 2016-12-02 11:31
混沌战神阿瑞斯
阅读(2502)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.示例
  2.模型主要参数
  3.模型主要属性变量    
阅读全文
 
        
        posted @ 2016-11-28 13:40
混沌战神阿瑞斯
阅读(6143)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.pipeline 模式
    1.1相关概念
    1.2代码示例
  2.特征提取,转换以及特征选择
    2.1特征提取
    2.2特征转换
    2.3特征选择
  3.模型选择与参数选择
    3.1 交叉验证
    3.2 训练集-测试集 切分    
阅读全文
 
        
        posted @ 2016-11-25 18:27
混沌战神阿瑞斯
阅读(1108)
推荐(0)
        
 
		
    
        
        
摘要:        
传送门:http://www.runoob.com/python/python-object.html    
阅读全文
 
        
        posted @ 2016-11-20 20:06
混沌战神阿瑞斯
阅读(229)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.外围架构
   2.推荐系统架构    
阅读全文
 
        
        posted @ 2016-11-19 19:50
混沌战神阿瑞斯
阅读(379)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
  1.用户满意度
    在线测评方法
  2.预测准确率
    2.1评分预测
    2.2TopN推荐
  3.覆盖率(coverage)
  4.多样性
  5.新颖性    
阅读全文
 
        
        posted @ 2016-11-16 23:23
混沌战神阿瑞斯
阅读(3597)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
 1 shuffle原理
  1.1 mapreduce的shuffle原理
    1.1.1 map task端操作
    1.1.2  reduce task端操作
   1.2 spark现在的SortShuffleManager
    2 Shuffle操作问题解决
   2.1 数据倾斜原理
       2.2 数据倾斜问题发现与解决
       2.3 数据倾斜解决方案
   3 spark RDD中的shuffle算子
      3.1 去重
      3.2 聚合
      3.3 排序
      3.4 重分区
  4 spark shuffle参数调优    
阅读全文
 
        
        posted @ 2016-11-11 16:55
混沌战神阿瑞斯
阅读(31567)
推荐(2)
        
 
		
    
        
        
摘要:        
摘要
    一、创建对象     
  二、查看数据
  三、选择和设置
  四、缺失值处理
  五、相关操作
  六、聚合
  七、重排(Reshaping)
  八、时间序列
  
  九、Categorical类型
   十、画图
    十一、导入和保存数据    
阅读全文
 
        
        posted @ 2016-11-05 22:51
混沌战神阿瑞斯
阅读(755)
推荐(0)
        
 
		
    
        
        
        
        posted @ 2016-11-04 15:55
混沌战神阿瑞斯
阅读(1194)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要
  1.num-executors
  2.executor-memory
  3.executor-cores
  4.driver-memory
  5.spark.default.parallelism
  6.spark.storage.memoryFraction
  7.spark.shuffle.memoryFraction
  8.资源参数参考示例    
阅读全文
 
        
        posted @ 2016-11-03 23:04
混沌战神阿瑞斯
阅读(14182)
推荐(3)
        
            
        
        
摘要:        
摘要:
  1.spark 提供的持久化方法
  2.Spark的持久化级别
  3.如何选择一种最合适的持久化策略    
阅读全文
 
        
        posted @ 2016-11-03 21:47
混沌战神阿瑞斯
阅读(1095)
推荐(1)
        
 
		
    
        
        
摘要:        
摘要:最近在看《机器学习实战》,在code的过程中总是会报一些小错误,所以发下debug过的地方;由于是跳着看的,所以只是其中一部分,希望之后能把这本书我遇见的全部错误都在此更正下。    
阅读全文
 
        
        posted @ 2016-10-29 18:13
混沌战神阿瑞斯
阅读(408)
推荐(0)
        
 
		
    
        
        
摘要:        
RDD.Action触发SparkContext.run,这里举最简单的例子rdd.count()    
阅读全文
 
        
        posted @ 2016-10-28 18:19
混沌战神阿瑞斯
阅读(1747)
推荐(0)
        
 
		
    
        
        
摘要:        
三、MapReduce运行原理 1、Map过程简述: 1)读取数据文件内容,对每一行内容解析成<k1,v1>键值对,每个键值对调用一次map函数 2)编写映射函数处理逻辑,将输入的<k1,v1>转换成新的<k2,v2> 3)对输出的<k2,v2>按reducer个数和分区规则进行分区 4)不同的分区    
阅读全文
 
        
        posted @ 2016-10-27 11:31
混沌战神阿瑞斯
阅读(3691)
推荐(1)
        
 
		
    
        
        
摘要:        
前言:本文是本人学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,如果在阅读中发现内容或者只是阐述有问题的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com
摘要:
  1.作业调度核心——DAGScheduler
      2.DAGScheduler类说明
    2.1DAGScheduler
    2.2ActiveJob
    2.3Stage
    2.4Task
  3.工作流程
    3.1划分Stage
    3.2生成Job,提交Stage
    3.3任务集的提交
    3.4任务作业完成状态的监控
    3.5任务结果的获取    
阅读全文
 
        
        posted @ 2016-10-17 17:16
混沌战神阿瑞斯
阅读(4668)
推荐(0)
        
 
		
    
        
        
摘要:        
5.1.1. Using Lists as Stacks The list methods make it very easy to use a list as a stack, where the last element added is the first element retrieved     
阅读全文
 
        
        posted @ 2016-10-15 13:18
混沌战神阿瑞斯
阅读(3525)
推荐(0)
        
 
		
    
        
        
摘要:        
摘要:
1.基本术语
2.运行架构
     2.1基本架构
     2.2运行流程
   2.3相关的类
  2.4调度模块:
            2.4.1作业调度简介
            2.4.2任务调度简介
     2.5 RDD运行原理
3.运行模式
     3.1 standalone模式    
阅读全文
 
        
        posted @ 2016-10-14 16:49
混沌战神阿瑞斯
阅读(3379)
推荐(0)
        
 
		
    
        
        
摘要:        
在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。    
阅读全文
 
        
        posted @ 2016-10-10 18:54
混沌战神阿瑞斯
阅读(3249)
推荐(0)
        
 
		
    
        
        
        
        posted @ 2016-10-09 14:56
混沌战神阿瑞斯
阅读(1561)
推荐(0)
        
 
		
    
        
        
摘要:        
在看李航的《统计学习方法时》提到了NP完全问题,于是摆之。    
阅读全文
 
        
        posted @ 2016-10-07 11:33
混沌战神阿瑞斯
阅读(543)
推荐(0)