摘要:
1.本福特定律
2.商品推荐的惊喜度
3.贝叶斯学派和频率学派
4.指数分布族
5.期望
6.方差
7.协方差
8.皮尔逊相关系数 阅读全文
摘要:
python scikit-learn 环境搭建问题解决记录 阅读全文
摘要:
1.平均值
1.1 全局平均值
1.2 用户评分平均值
1.3 物品评分平均值
1.4 用户分类对物品分类的平均值
分类方法:
1.4.1 平均值分类
1.4.2 活跃度/流行度分类
2.基于邻域的方法
2.1 基于用户的协同过滤
2.2 基于物品的协同过滤
相似度计算方法选择:
基于共现矩阵的相似度
余弦相似度
3.隐语义模型与矩阵分解模型
3.1 ALS 矩阵分解模型
4.加入时间因素
1.基于邻域的模型融合时间信息
5.模型融合
1.级联方式
2.加权融合 阅读全文
摘要:
以上两个join接口都是调用的这个方法: rdd.join的实现:rdd1.join(rdd2) => rdd1.cogroup(rdd2,partitioner) 这是CoGroupedRDD的类声明,其中有两个与java 语法的不同: 1.类型声明中的小于号“<”,这个在scala 中叫做变量类 阅读全文
摘要:
1.大数定律:
2.中心极限定理
3.参数估计 阅读全文
摘要:
摘要:
1.常见的距离算法
1.1欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean distance)
1.2马哈拉诺比斯距离(Mahalanobis Distance)
1.3曼哈顿距离(Manhattan Distance)
1.4切比雪夫距离(Chebyshev Distance)
1.5明可夫斯基距离(Minkowski Distance)
1.6海明距离(Hamming distance)
2.常见的相似度(系数)算法
2.1余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)
2.2皮尔森相关系数(Pearson Correlation Coefficient)
2.3Jaccard相似系数(Jaccard Coefficient)
2.4Tanimoto系数(广义Jaccar 阅读全文
摘要:
摘要:
1.定义
2.常见算法
3.特性
4.优缺点 阅读全文
摘要:
1.jvm 默认编码:Java的默认编码
2.jvm heap : Java虚拟机的内存组成以及堆内存介绍
3.jvm heap:Java命令学习系列(零)——常见命令及Java Dump介绍
4.jvm heap:Java命令学习系列(二)——Jstack
5.Java GC工作原理
6.Java开发必须掌握的线上问题排查命令 阅读全文
摘要:
摘要:
1.背景
2.rangeBounds 上边界数组源码走读
3.RangePartitioner的sketch 源码走读
4.determineBounds 源码走读
5.关于RangePartitioner和sortByKey实验 阅读全文
摘要:
摘要:
1、Operation category READ is not supported in state standby
2、配置spark.deploy.recoveryMode选项为ZOOKEEPER
3、多Master如何配置
4、No Space Left on the device(Shuffle临时文件过多)
5、java.lang.OutOfMemory, unable to create new native thread
6、Worker节点中的work目录占用许多磁盘空间
7、spark-shell提交Spark Application如何解决依赖库
8、Spark在发布应用的时候,出现连接不上master问题
9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
10、spark-shell 找不到hadoop 阅读全文
摘要:
1.spark core :Spark RDD 核心总结;Spark算子选择策略;spark 核心作业调度和任务调度;spark参数调优 ;Spark 运行架构核心总结;Spark Shuffle原理、Shuffle操作问题解决和参数调优 2.spark sql 或者SQL 方面:这方面一直没有机会 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子
6.适用场合 阅读全文
摘要:
分类解读Spark下的39个机器学习:http://www.wtoutiao.com/p/X8ftr1.html
JVM 调优系列:http://www.cnblogs.com/duanxz/p/6098910.html
算法OJ(C++ 实现) :https://www.julyedu.com/video/play/27
######################### 机器学习相关 ###############################
hinton 的神经网络公开课 : https://www.coursera.org/learn/neural-networks
MIT Deep Learning by Ian Goodfellow Yoshua Bengio Aaron Courville : 英文pdf;中文翻译 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子
6.适用场合 阅读全文
摘要:
摘要: 内容: 我的github 源代码:https://github.com/Tongzhenguo/Python-Project/blob/master/learntoscikit/preprocessing/demo.py 阅读全文
摘要:
摘要: 1.特征选择的功能 2.封装特征选择(Wapper Feature Select) 3.过滤特征选择(Filter Feature Select) 4.嵌入特征选择(Embeding Feature Select) 内容: 1.特征选择的功能 2.封装特征选择(Wapper Feature 阅读全文
摘要:
摘要:
1.示例
2.模型主要参数
3.模型主要属性变量 阅读全文
摘要:
摘要:
1.pipeline 模式
1.1相关概念
1.2代码示例
2.特征提取,转换以及特征选择
2.1特征提取
2.2特征转换
2.3特征选择
3.模型选择与参数选择
3.1 交叉验证
3.2 训练集-测试集 切分 阅读全文
摘要:
传送门:http://www.runoob.com/python/python-object.html 阅读全文
摘要:
摘要:
1.外围架构
2.推荐系统架构 阅读全文
摘要:
摘要:
1.用户满意度
在线测评方法
2.预测准确率
2.1评分预测
2.2TopN推荐
3.覆盖率(coverage)
4.多样性
5.新颖性 阅读全文
摘要:
摘要:
1 shuffle原理
1.1 mapreduce的shuffle原理
1.1.1 map task端操作
1.1.2 reduce task端操作
1.2 spark现在的SortShuffleManager
2 Shuffle操作问题解决
2.1 数据倾斜原理
2.2 数据倾斜问题发现与解决
2.3 数据倾斜解决方案
3 spark RDD中的shuffle算子
3.1 去重
3.2 聚合
3.3 排序
3.4 重分区
4 spark shuffle参数调优 阅读全文
摘要:
摘要
一、创建对象
二、查看数据
三、选择和设置
四、缺失值处理
五、相关操作
六、聚合
七、重排(Reshaping)
八、时间序列
九、Categorical类型
十、画图
十一、导入和保存数据 阅读全文
摘要:
摘要:
1.Java的默认编码 阅读全文
摘要:
摘要
1.num-executors
2.executor-memory
3.executor-cores
4.driver-memory
5.spark.default.parallelism
6.spark.storage.memoryFraction
7.spark.shuffle.memoryFraction
8.资源参数参考示例 阅读全文
摘要:
摘要:
1.spark 提供的持久化方法
2.Spark的持久化级别
3.如何选择一种最合适的持久化策略 阅读全文
摘要:
摘要:最近在看《机器学习实战》,在code的过程中总是会报一些小错误,所以发下debug过的地方;由于是跳着看的,所以只是其中一部分,希望之后能把这本书我遇见的全部错误都在此更正下。 阅读全文
摘要:
RDD.Action触发SparkContext.run,这里举最简单的例子rdd.count() 阅读全文
摘要:
三、MapReduce运行原理 1、Map过程简述: 1)读取数据文件内容,对每一行内容解析成<k1,v1>键值对,每个键值对调用一次map函数 2)编写映射函数处理逻辑,将输入的<k1,v1>转换成新的<k2,v2> 3)对输出的<k2,v2>按reducer个数和分区规则进行分区 4)不同的分区 阅读全文
摘要:
前言:本文是本人学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,如果在阅读中发现内容或者只是阐述有问题的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com
摘要:
1.作业调度核心——DAGScheduler
2.DAGScheduler类说明
2.1DAGScheduler
2.2ActiveJob
2.3Stage
2.4Task
3.工作流程
3.1划分Stage
3.2生成Job,提交Stage
3.3任务集的提交
3.4任务作业完成状态的监控
3.5任务结果的获取 阅读全文
摘要:
5.1.1. Using Lists as Stacks The list methods make it very easy to use a list as a stack, where the last element added is the first element retrieved 阅读全文
摘要:
摘要:
1.基本术语
2.运行架构
2.1基本架构
2.2运行流程
2.3相关的类
2.4调度模块:
2.4.1作业调度简介
2.4.2任务调度简介
2.5 RDD运行原理
3.运行模式
3.1 standalone模式 阅读全文
摘要:
在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。 阅读全文
摘要:
在看李航的《统计学习方法时》提到了NP完全问题,于是摆之。 阅读全文