摘要: Spark 经典论文笔记 Resilient Distributed Datasets : A Fault Tolerant Abstraction for In Memory Cluster Computing 为什么要设计spark 现在的计算框架如Map/Reduce在大数据分析中被广泛采用, 阅读全文
posted @ 2017-07-21 14:32 罐装可乐 阅读(3327) 评论(1) 推荐(1) 编辑
摘要: Spark Streaming 编程学习笔记 简介 spark stream 基于spark 核心API扩展而来,提供了一种具有规模可伸缩、高吞吐、错误恢复的处理实时数据流的流式处理方法。数据来源可以从本地文件,hadoop等接受,可以使用该机函数类似map、reduce、window等函数进行处理 阅读全文
posted @ 2017-07-19 23:27 罐装可乐 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 1、表示定理的证明 如果你求解的是L2-regularized的问题,那么一定有一个最好的w可以表示成z的线性组合: 如何来证明这件事情呢? 我们将w分成两个部分,分别为w的平行部分(由zn展开的那个空间的向量来构成)和w的垂直部分(与zn展开表示的向量垂直的向量)。 我们希望最后完全没有w的垂直部 阅读全文
posted @ 2017-04-16 10:42 罐装可乐 阅读(2505) 评论(0) 推荐(0) 编辑
摘要: 1.11. Ensemble methods(集成学习) 目标: 相对于当个学习器,集成学习通过使用多个基学习器的预测结果来来提高学习预测的泛化性能以及鲁棒性; 集成学习的两个思路: 1)、通过使用并行的学习,得到多个学习模型然后取其平均结果目的在于减少方差,代表算法有随机森林。通常来说多个学习器的 阅读全文
posted @ 2017-04-13 22:42 罐装可乐 阅读(1079) 评论(0) 推荐(0) 编辑
摘要: 通常说的SVM与逻辑回归的联系一般指的是软间隔的SVM与逻辑回归之间的关系,硬间隔的SVM应该是与感知机模型的区别和联系。而且工程中也不能要求所有的点都正确分类,训练数据中噪声的存在使得完全正确分类很可能造成过拟合。 软间隔SVM与逻辑回归的联系 要说软间隔SVM与联系就要看软间隔SVM的缘由。 软 阅读全文
posted @ 2017-03-31 17:47 罐装可乐 阅读(10911) 评论(0) 推荐(0) 编辑
摘要: 问题描述: 两个排序的数组A和B分别含有m和n个数,找到两个排序数组的中位数,要求时间复杂度应为O(log (m+n))。转化成找到两个数组的第K大数字进行解决 解题方法: 对于一个长度为n的已排序数列a,若n为奇数,中位数为a[n / 2 + 1] , 若n为偶数,则中位数(a[n / 2] + 阅读全文
posted @ 2017-03-27 20:21 罐装可乐 阅读(934) 评论(0) 推荐(0) 编辑
摘要: 拓扑排序的意思: 对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序,是将G中所有顶点排成一个线性序列,使得图中任意一对顶点u和v,若边(u,v)∈E(G),则u在线性序列中出现在v之前。通常,这样的线性序列称为满足拓扑次序(Topological Order) 阅读全文
posted @ 2017-03-21 23:16 罐装可乐 阅读(1507) 评论(0) 推荐(0) 编辑
摘要: 1、什么是独热码 独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制,更加详细参加one_hot code(维基百科)。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性或 阅读全文
posted @ 2017-03-21 17:12 罐装可乐 阅读(42203) 评论(0) 推荐(3) 编辑
摘要: 1、广告的接受流程 针对以上的阶段,在计算广告对系统的优化有不同的影响。 广告的天然属性有很大的影响因素(被人看到的次数,越高越好),那么曝光的频率就是影响很大,一个不好的广告位,即使系统优化再好其点击率也不会很高。对应在广告系统中就是讲广告放置的位置的不同带给该广告不同的点击率。 曝光完成后就是关 阅读全文
posted @ 2017-03-20 21:39 罐装可乐 阅读(1002) 评论(0) 推荐(0) 编辑
摘要: 1、聚类是一种无监督学习,他讲相似的对象放到同一簇下,有点像自动分类。聚类方法几乎可以用到任何对象上,簇内的对象越相似,聚类结果就越好。 2、K均值聚类的优点 算法简单容易实现 缺点: 可能收敛到局部最小值,在大规模数据上收敛速度较慢 3、K-均值算法算法流程以及伪代码 首先随机选择k个初始点作为质 阅读全文
posted @ 2017-03-16 22:51 罐装可乐 阅读(919) 评论(0) 推荐(0) 编辑