07 2012 档案
摘要:K-均值法也叫C-均值法,它是一种广泛使用的聚类方法。它以K为输入参数,把n个对象的集合分为k个簇,使得簇内的相似度尽可能高,而簇间的相似度尽可能的低。 K均值基于误差平方和准则。随机选择k个对象,每个对象代表一个簇的初始均值。对于下的每个对象,根据其与各个簇的均值的距离,将它指派到最相似的簇(距离最小)。然后计算每个簇的新的均值。此过程不断重复,直至准则函数收敛。误差平方和定义...
阅读全文
摘要:C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一...
阅读全文
摘要:第二篇主要是讲述了SVM中最简单的情况,也就是线性可分的两类问题。在前面给出的公式中,对Lagrange函数的产生过程及接下来的推导还是有一些疑问,后来查了一些资料,终于释放掉心中的疑云,现记录如下。 有疑问的地方是: 前文说的最优分类面问题转化成如下的约束优化问题,即在条件 的约束下,求函数 的最小值。这是没问题的,但是紧接着作者通过定...
阅读全文
摘要:最近看了张学工老师的《关于统计学习理论与支持向量机》和Vapnik的《Support Vector Networks》两篇文章。张学工老师是国内接触SVM比较早的学者,他的这篇文章算是支持向量机的一个综述;而Vapnik先生是SVM的发明者,SVM大牛中的大牛。他的这篇文章据说是支持向量机的第一篇论文。 我看文献的习惯是先找一篇国内比较好的综述进行阅读,然后从这篇文章中去找相应的...
阅读全文
摘要:上学的时候,在《模式识别》课程里面接触到支持向量机,但说实话,那时候对它一知半解。虽然当时完成了一个大作业,效果也不错,但终究对它有一种似是而非的感觉。为了不让这种感觉再继续下去,这段时间好好研究一下。接下来会用几篇日志记载这段时间的收获。 要学习支持向量机,先从我教材《模式识别》(边肇祺,张学工版)出发。这次看书的时候对书上297页的一个地方,也就是最优分类面: 的分类间隔是 具体怎么推导出来有点不明白,书上的推导过程是放在4.1节即“线性判别函数”那一节。现在来看看具体的推导过程: 给出两类情况下判别函数为线性的一般表达式: (1) 式中x是d维特征向量,...
阅读全文
摘要:今天用SQL Server尝试实现一个SQL语句的时候,报了如标题所示的错误,通过在百度里面搜索,并亲自动手实现,终于发现问题所在,现在把它记录下来。 语句如下: select [OrderID],[ProductID], min(UnitPrice) as MinUnitPrice into NewDetails FROM [Northwind]...
阅读全文
摘要:这是一道从网上找来的题,据说是Alibaba2011年数据分析师招聘的题目,现在SQL Server下解答。 题目如下: 根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页...
阅读全文
摘要:Trie树的定义 Trie树又称字典树,单词查找树或者键树,是一种哈希树的变种。它是一种用于快速检测的多叉树结构,如英文字母的Trie树是一个26叉树结构,数字的Trie树是一个10叉树结构。Trie的核心思想是空间换时间,利用字符串的公共前缀降低查询时间的开销以达到提高效率的目的。 Trie词来源于单词Retrieve,既可以发tree的音,也可以发try的音。 Trie树可以利用字符串的公共前缀来节约存储空间。如下图所示给出字符串"abc","ab","bd","dda",根据该字符串序列构建一棵Trie树:
阅读全文
摘要:Bloom Filter是由Burton Bloom于一九七零年在《Space/time trade-offs in Hash Coding with Errors》中提出的。Bloom Filter实际上有很多修改版本,Bloom本人提出的版本被称为Standard Bloom Filter。 初始状态时,Bloom Filter是一个包含m位的一个位数组,每一位都置为0。 下面通过一个例子来说明Bloom过滤器的原理。 假定我们存储一亿个电子邮件地址(用哈希表实现的具体办法是将每一个email地址对应成一个八字节的信息指纹(数学之美系列13) http://www.google.co...
阅读全文
摘要:当一个问题的规模很大时,直接求解往往比较困难。对于这类问题,很大一部分是可以采取分而治之的思想来处理的。 分治法是把问题划分成多个子问题来进行处理。这些子问题,在结构上跟原来的问题一样,但是规模比原来的问题要小。如果得到的子问题还是比较大,那么可以接着细分,一直细分到可以接受的程度为止。这样就可以用迭代的方法,分别求解这些子问题,最后再将子问题的解组合起来,就可以得到原问题的解。分治法的设计原理 对于一个规模为n的问题P(n),可以将它分解成k个规模较小的子问题,这些子问题互相独立,且结构跟原问题的结构相同。在解这些问题的时候,又可以对每一个子问题进行进一步的分解,直到某一个阈值n0时为止。.
阅读全文
摘要:SAS是现今非常流行的数据分析和数据挖掘软件,想从事数据分析行业,掌握SAS很有必要。虽然SAS本身提供了丰富的人机交互界面,通过手动调用各个Menu能方便地完成数据统计分析的任务,但是,通过代码来调用各个功能模块无疑能为工作带来巨大的灵活性,并显著提高效率。 本文主要是根据网上找到的一个电子文档《SAS语句简介》(可能是某本书的其中一章)以及朱世武老师的《SAS编程技术...
阅读全文
摘要:1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为)。这样处理后,所有可能相同的url都在对应的小文件()中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小
阅读全文
摘要:1) 首先,你安装的时候必须选择了中文和英文两种语言。 2) 其实,如果想切换启动的缺省语言,可以修改配置文件(例如: C:\Program Files\SAS\SAS 9.1\SASV9.CFG): 中文启动,修改为: -CONFIG "C:\Program Files\SAS\SAS 9.1\nls\zh\SASV9,CFG" 英文启动,修改为: -CONFIG "C:\Program Files\SAS\SAS 9.1\nls\en\SASV9,CFG"
阅读全文
摘要:按照《Hadoop开发者入门》中的介绍来进行安装,基本上没什么问题。1.配置ssh的localhost的时候出错 由于在windows下,同时也遇到了win7下的一个共同问题,那就是在配置SSH登陆的时候,在CygWin中输入ssh localhost命令的时候,会出现“Connection to LocalHost Closed By ::1”的错误。这个问题在《入门》里面是没有很好解决的,并且链接中所指向的那个帖子似乎也没有什么有用的信息(可能是对我们这些菜鸟来说吧)。 通过问谷歌和度娘,发现有一篇帖子里面提到的方法能够解决这个问题(至少在我的机器上如此,当然,那个作者的机器上应该也解决.
阅读全文

浙公网安备 33010602011771号