随笔分类 -  算法

机器学习之寻找KMeans的最优K
摘要:K-Means聚类算法是最为经典的,同时也是使用最为广泛的一种基于划分的聚类算法,它属于基于距离的无监督聚类算法。KMeans算法简单实用,在机器学习算法中占有重要的地位。对于KMeans算法而言,如何确定K值,确实让人头疼的事情。 最近这几天一直忙于构建公司的推荐引擎。对用户群体的分类,要使用KM 阅读全文
posted @ 2016-06-27 21:23 成都笨笨 阅读(6278) 评论(1) 推荐(1) 编辑
机器学习的一些常用算法
摘要:下面是些泛泛的基础知识,但是真正搞机器学习的话,还是非常有用。像推荐系统、DSP等目前项目上机器学习的应用的关键,我认为数据处理非常非常重要,因为很多情况下,机器学习的算法是有前提条件的,对数据是有要求的。 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 上图表明机器学习是数据通过 阅读全文
posted @ 2016-06-26 19:55 成都笨笨 阅读(4200) 评论(0) 推荐(0) 编辑
Zookeeper(一)从抽屉算法到Quorum (NRW)算法
摘要:一、抽屉算法 抽屉算法,又名鸽巢原理,它是德国数学家狄利克雷首先明确的提出来并用以证明一些数论中的问题,因此,也称为狄利克雷原则。它是组合数学中一个重要的原理。 具体算法讲的是: 第一抽屉算法: 如果n+1个物体被放进n个盒子,那么至少有一个盒子包含两个或更多的物体。 证明(反证法):如果每个抽屉至 阅读全文
posted @ 2016-05-10 22:48 成都笨笨 阅读(2922) 评论(0) 推荐(0) 编辑
大数据分析(一)探索性分析
摘要:最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoop、hive、storm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。 我们对... 阅读全文
posted @ 2015-12-30 02:31 成都笨笨 阅读(8605) 评论(0) 推荐(0) 编辑
基于信息熵的无字典分词算法
摘要:这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集... 阅读全文
posted @ 2015-12-02 22:43 成都笨笨 阅读(3504) 评论(1) 推荐(1) 编辑
算法之常用的距离和相似度度量
摘要:在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个... 阅读全文
posted @ 2015-12-01 12:04 成都笨笨 阅读(459) 评论(0) 推荐(0) 编辑
遗传算法(二)之组卷算法
摘要:组卷算法主要用于编制科学、公正的试卷的一种算法,具体大家可以百度看一下。我这篇文章主要是讲解如何通过遗传算法来实现组卷,遗传算法大家不清楚的地方仍然可以查看百度,不是这篇文章的重点。一、遗传算法的表示基本遗传算法(SGA)可以定义为一个8元数组:。其中:C:个体的编码,SGA种一般采用固定长度的... 阅读全文
posted @ 2015-11-28 12:08 成都笨笨 阅读(2560) 评论(0) 推荐(0) 编辑
算法(三)粒子群算法之算法分类
摘要:粒子群算法主要分为4个大的分支:(1)标准粒子群算法的变形在这个分支中,主要是对标准粒子群算法的惯性因子、收敛因子(约束因子)、“认知”部分的c1,“社会”部分的c2进行变化与调节,希望获得好的效果。惯性因子的原始版本是保持不变的,后来有人提出随着算法迭代的进行,惯性因子需要逐渐减小的思想。算法开始... 阅读全文
posted @ 2015-11-26 20:54 成都笨笨 阅读(1221) 评论(0) 推荐(0) 编辑
算法(三)粒子群算法之局部粒子
摘要:在全局版的标准粒子群算法中,每个粒子的速度的更新是根据两个因素来变化的,这两个因素是:1.粒子自己历史最优值pi。2.粒子群体的全局最优值pg。如果改变粒子速度更新公式,让每个粒子的速度的更新根据以下两个因素更新,A.粒子自己历史最优值pi。B.粒子邻域内粒子的最优值pnk。其余保持跟全局版的标... 阅读全文
posted @ 2015-11-26 20:52 成都笨笨 阅读(2046) 评论(0) 推荐(0) 编辑
算法(三)粒子群算法PSO的介绍
摘要:一、引言在讲算法之前,先看两个例子:例子一:背包问题,一个书包,一堆物品,每个物品都有自己的价值和体积,装满书包,使得装的物品价值最大。例子二:投资问题,n个项目,第i个项目投资为ci收益为pi,总投资不得超过C,如何选择项目总收益最大。如前所述,PSO模拟鸟群的捕食行为。设想这样一个场景:一群鸟在... 阅读全文
posted @ 2015-11-26 20:16 成都笨笨 阅读(11513) 评论(0) 推荐(0) 编辑
算法(二)之遗传算法(SGA)
摘要:算法(二)之遗传算法(SGA)遗传算法(GeneticAlgorithm)又叫基因进化算法或进化算法,是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,属于启发式搜索算法一种。下面通过下面例子的求解,来逐步认识遗传算法的操作过程。我参考了博客(http://blog.csdn.net/b2b... 阅读全文
posted @ 2015-11-25 22:04 成都笨笨 阅读(2360) 评论(0) 推荐(0) 编辑
算法(一)之洗牌算法
摘要:洗牌算法是我们常见的随机问题,在玩游戏、随机排序时经常会碰到,一个最常用的地方就是组卷。它可以抽象成这样:M以内的所有自然数的随机顺序数组。package com.math;import java.util.Random;/** * @author summer * */public class... 阅读全文
posted @ 2015-11-24 22:39 成都笨笨 阅读(317) 评论(0) 推荐(0) 编辑