摘要:DBSCANDensity-Based Spatial Clustering of Application with NoiseIt can discover cluster of arbitrary shapeA cluster is defined as a maximal set of den...
阅读全文
摘要:问题描述: 两个字符串S1和S2,假设S1长度大于等于S2长度,判断S2是否为S1的一个子集。 例如:S1=ABCDEFGHI, S2=ACEFG,由于S2中的每个元素都出现在S1中,说明S1包含S2. 若S2=ACEFGK, 由于K不在S1中,因此S1不包含S2。设S1长度为m,S2长度为n 方法...
阅读全文
摘要:目标:rotate(s,m)将字符串s的前m位左旋至末尾。例:s = abcdefghijkrotate(s,3) = defghijkabc思路:1. 假设字符串s需要调整位置,设置指针p1指向s起点,p2指向起点+m的位置,这里p1->a, p2->d。2. 交换p1和p2指向的元素,同时让p1...
阅读全文
摘要:GCD:辗转相除法,求两个正整数的最大公约数。gcd(m,n) = gcd(n,m mod n) [a>b且 a mod b不等于0]步骤:1. 求余数r = m%n2. 若r=0,则算法结束,此时的n就为m和n的最大公约数。3. 否则,令m = n, n = r,返回第一步。
阅读全文
摘要:给定一个数列,其中的数有正有负,求这个数列中的某一个子序列使得它们的和最大。例如:-2, 11, -4, 13, -5, 2, -5, -3, 12, -9 这个数列中,子序列和最大为21-2 ,11, -4, 13, -5, -2 和为20思路:traverse整个数组用sum存储当前位置及其之前的数字之和因为每次循环都会求得一个sum,用max存储最大的sum如果某一次求得的sumpublic...
阅读全文
摘要:我们知道PCA干的事情是把n维的样本投影到k维,同时丢失的信息能够达到最少。为什么说principal component是covariance matrix的特征值中最大的前k个对应的特征向量上的分量?解释:对于一组样本数据,如果它们的方差越大,说明它们蕴含的信息越多,可以参考熵的概念理解。那么P...
阅读全文
摘要:Noise在x和y都可能有noise对于没有noise的情况,x~P(x), f(x)=h(x),但是如果现在有noise,x~P(x), y~P(y|x)(y是真正的label,只是一定概率上会变,因为有noise,这个概率是P(y|x))联合起来,就有(x,y)~P(x,y) i.i.d.P(y|x): target distribution如果P(+1|x)=0.7,P(-1|x)=0.3,...
阅读全文
摘要:可以把growth function m_H(N)的upper bound用N^(k-1)来限制, for N large, k>=3Thus,定义: VC Dimension: maximum non-break point如果break point = k, then VC dimension = k-1在VC Dimension上,这个Hset可以shatter某N个点,不一定是所有的N个点...
阅读全文
摘要:Restriction of Break Point e.g: k=2 说明在所有的dichotomy中,任意两个点不能被shatter(shatter就是能够出现所有种排列组合),即不能出现这两个点的2^k=4种组合。Bounding function B(N, k):maximum possib...
阅读全文
摘要:We want:根据Hoeffding:但是M是无穷大的,是否可以找到一个有穷大的m_H去替代无穷大的M?思考:M从何而来。Hset里有M个h,对于每个Data,只要存在一个h会造成Bad,即Ein和Eout差很远,则称该Data是一个Bad sample,因此是用or的关系。这里的upper bound之所以是可以加起来的,是因为假设了Bad sample发生在不同的h上,即h1(D1)是Bad...
阅读全文
摘要:Hoeffding公式为\epsilon]\leq{2e^{-2\epsilon^2N}}">如果把Training error和Test error分别看成和的话,Hoeffding告诉我们,取样出来的v和总的u大部分是比较接近的,很小的概率是差很远的,即Ein和Eout差很远,这种情况称为Bad sample.本来只有一个coin,丢5次,5次head的概率就是1/32。现在有150个coin...
阅读全文
摘要:对于PLA, pocket, linear regression, logistic regression,这些gradient descend的方法,我们可以选择迭代的次数,学习率,也可以选择对原来的feature进行多项式的转换映射到高维空间。为了防止overfitting,regularizer可以选择l1-norm,l2-norm, symmetry regularizer,以及penal...
阅读全文