随笔档案「2015年7月」 - CaseyZ

Intro to DBSCAN

摘要：DBSCANDensity-Based Spatial Clustering of Application with NoiseIt can discover cluster of arbitrary shapeA cluster is defined as a maximal set of den... 阅读全文

posted @ 2015-07-31 17:15 CaseyZ 阅读(167) 评论(0) 推荐(0)

字符串包含问题

摘要：问题描述：两个字符串S1和S2，假设S1长度大于等于S2长度，判断S2是否为S1的一个子集。例如：S1=ABCDEFGHI, S2=ACEFG，由于S2中的每个元素都出现在S1中，说明S1包含S2. 若S2=ACEFGK, 由于K不在S1中，因此S1不包含S2。设S1长度为m，S2长度为n 方法... 阅读全文

posted @ 2015-07-17 12:03 CaseyZ 阅读(187) 评论(0) 推荐(0)

左旋字符串

摘要：目标：rotate(s,m)将字符串s的前m位左旋至末尾。例：s = abcdefghijkrotate(s,3) ＝ defghijkabc思路：1. 假设字符串s需要调整位置，设置指针p1指向s起点，p2指向起点+m的位置，这里p1->a, p2->d。2. 交换p1和p2指向的元素，同时让p1... 阅读全文

posted @ 2015-07-17 11:57 CaseyZ 阅读(190) 评论(0) 推荐(0)

辗转相除法

摘要：GCD:辗转相除法，求两个正整数的最大公约数。gcd(m,n) = gcd(n,m mod n) ［a>b且 a mod b不等于0］步骤：1. 求余数r = m%n2. 若r＝0，则算法结束，此时的n就为m和n的最大公约数。3. 否则，令m = n, n = r，返回第一步。阅读全文

posted @ 2015-07-17 11:55 CaseyZ 阅读(106) 评论(0) 推荐(0)

摘要：给定一个数列，其中的数有正有负，求这个数列中的某一个子序列使得它们的和最大。例如：-2, 11, -4, 13, -5, 2, -5, -3, 12, -9 这个数列中，子序列和最大为21-2 ,11, -4, 13, -5, -2 和为20思路：traverse整个数组用sum存储当前位置及其之前的数字之和因为每次循环都会求得一个sum，用max存储最大的sum如果某一次求得的sumpublic... 阅读全文

posted @ 2015-07-17 00:55 CaseyZ 阅读(124) 评论(0) 推荐(0)

一个关于PCA的疑问

摘要：我们知道PCA干的事情是把n维的样本投影到k维，同时丢失的信息能够达到最少。为什么说principal component是covariance matrix的特征值中最大的前k个对应的特征向量上的分量？解释：对于一组样本数据，如果它们的方差越大，说明它们蕴含的信息越多，可以参考熵的概念理解。那么P... 阅读全文

posted @ 2015-07-17 00:48 CaseyZ 阅读(197) 评论(0) 推荐(0)

Error measure

posted @ 2015-07-17 00:32 CaseyZ 阅读(253) 评论(0) 推荐(0)

VC dimension and Model complexity

摘要：可以把growth function m_H(N)的upper bound用N^(k-1)来限制, for N large, k>=3Thus,定义: VC Dimension: maximum non-break point如果break point = k, then VC dimension = k-1在VC Dimension上，这个Hset可以shatter某N个点，不一定是所有的N个点... 阅读全文

posted @ 2015-07-17 00:27 CaseyZ 阅读(401) 评论(0) 推荐(0)

Break point and VC bound

摘要：Restriction of Break Point e.g: k=2 说明在所有的dichotomy中，任意两个点不能被shatter(shatter就是能够出现所有种排列组合)，即不能出现这两个点的2^k=4种组合。Bounding function B(N, k):maximum possib... 阅读全文

posted @ 2015-07-17 00:14 CaseyZ 阅读(474) 评论(0) 推荐(0)

Infinite size of Hypothesis set and growth function

摘要：We want:根据Hoeffding:但是M是无穷大的，是否可以找到一个有穷大的m_H去替代无穷大的M？思考：M从何而来。Hset里有M个h，对于每个Data，只要存在一个h会造成Bad，即Ein和Eout差很远，则称该Data是一个Bad sample，因此是用or的关系。这里的upper bound之所以是可以加起来的，是因为假设了Bad sample发生在不同的h上，即h1(D1)是Bad... 阅读全文

posted @ 2015-07-16 22:25 CaseyZ 阅读(230) 评论(0) 推荐(0)

Hoeffding inequality

摘要：Hoeffding公式为\epsilon]\leq{2e^{-2\epsilon^2N}}">如果把Training error和Test error分别看成和的话，Hoeffding告诉我们，取样出来的v和总的u大部分是比较接近的，很小的概率是差很远的，即Ein和Eout差很远，这种情况称为Bad sample.本来只有一个coin，丢5次，5次head的概率就是1/32。现在有150个coin... 阅读全文

posted @ 2015-07-16 22:15 CaseyZ 阅读(684) 评论(0) 推荐(0)

Validation

摘要：对于PLA, pocket, linear regression, logistic regression，这些gradient descend的方法，我们可以选择迭代的次数，学习率，也可以选择对原来的feature进行多项式的转换映射到高维空间。为了防止overfitting，regularizer可以选择l1-norm，l2-norm, symmetry regularizer，以及penal... 阅读全文

posted @ 2015-07-15 17:43 CaseyZ 阅读(277) 评论(0) 推荐(0)

Casey

07 2015 档案