随笔分类 -  算法

摘要:SimHash 1.算法思想 假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本去重,这就对算法的效率有着很高的要求。 而局部敏感hash算法可以将原始的文本内容映射为数字(hash 阅读全文
posted @ 2023-06-27 16:46 阿凡卢 阅读(604) 评论(0) 推荐(0) 编辑
摘要:原理 一致性哈希算法(Consistent Hashing)最早在论文《Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web》中 阅读全文
posted @ 2020-03-26 13:06 阿凡卢 阅读(1693) 评论(0) 推荐(1) 编辑
摘要:如何判断一个点是否在多边形内部?(1)面积和判别法:判断目标点与多边形的每条边组成的三角形面积和是否等于该多边形,相等则在多边形内部。(2)夹角和判别法:判断目标点与所有边的夹角和是否为360度,为360度则在多边形内部。(3)引射线法:从目标点出发引一条射线,看这条射线和多边形所有边的交点数目。如... 阅读全文
posted @ 2014-05-11 21:52 阿凡卢 阅读(85249) 评论(7) 推荐(9) 编辑
摘要:1. IntroductionMD5算法是一种消息摘要算法(Message Digest Algorithm),此算法以任意长度的信息(message)作为输入进行计算,产生一个128-bit(16-byte)的指纹或报文摘要(fingerprint or message digest)。两个不同的 阅读全文
posted @ 2013-04-08 20:37 阿凡卢 阅读(1315) 评论(0) 推荐(0) 编辑
摘要:Base64用途1.用于对SOHO级路由器(网关设备)管理员帐户密码的加密2.流媒体网站对于播放的流媒体文件的路径的加密3.迅雷等下载软件对下载链接地址的加密Base64算法Base64编码要求把3个8位字节(3*8=24)转化为4个6位的字节(4*6=24),之后在6位的前面补两个0,形成8位一个字节的形式。Base64类函数:unsigned int CreateMatchingEncodingBuffer (unsigned int p_InputByteCount, char** p_ppEncodingBuffer);创建匹配于编码的缓存空间。参数:1输入字节数,2进行编码需要的缓存 阅读全文
posted @ 2012-12-26 14:16 阿凡卢 阅读(4077) 评论(0) 推荐(0) 编辑
摘要:1、整型数V的二进制中1的个数//普通解法:除以2,看余数int Count(int v){ int num = 0; while(v) { if(v % 2 == 1) ++ num; v /= 2; } return num;}//使用位移int Count(int v){ int num = 0; while(v) { num += v & 1; v >>= 1; } return num;}位移的思路,当输入i是正数时没有问题,但当输入的i是一个负数... 阅读全文
posted @ 2012-11-20 17:00 阿凡卢 阅读(946) 评论(0) 推荐(0) 编辑
摘要:1、最长公共子序列、最长公共子串最长公共子序列(Longest-Common-Subsequence,LCS)dp[i][j]:dp[i][j]表示长度分别为i和j的序列X和序列Y构成的LCS的长度dp[i][j] = 0,如果i=0 或 j=0 dp[i][j] = dp[i-1][j-1] + 1,如果 X[i-1] = Y[i-1] dp[i][j] = max{ dp[i-1][j], dp[i][j-1] },如果 X[i-1] != Y[i-1]LCS长度为 dp[Xlen][Ylen]View Code int dp[100][100]; // 存储LCS长度, 下标i,j表示. 阅读全文
posted @ 2012-11-15 15:37 阿凡卢 阅读(5710) 评论(3) 推荐(2) 编辑
摘要:1、一个楼梯有20级,每次走1级或是2级,从底走到顶一共有多少中走法?算法: 设 n 是阶数,f(n) 是上 n 阶的不同走法数,则第一步可以走一阶或者是两阶, 那么这三种情况下剩余的阶数分别为 n-1、n-2, 所以 f(n) = f(n-1) + f(n-2)。//递归解法int solution1(int n){ if(n == 0 || n == 1) return 1; else return solution1(n-1) + solution1(n-2);}//非递归解法int f[100];int solution2(int n){ f[0] = 1; f... 阅读全文
posted @ 2012-11-14 13:18 阿凡卢 阅读(5366) 评论(0) 推荐(1) 编辑
摘要:1、写一个函数找出一个整数数组中第二大的数。 2、寻找平衡点问题 平衡点:比如int numbers[]={1,3,5,7,8,25,4,20}; 25前面的总和为24,25后面的总和也是24,25这个点就是平衡点。假如一个数组中的元素,其前面的部分等于后面的部分,那么这个点的位序就是平衡点,要求返 阅读全文
posted @ 2012-11-13 12:50 阿凡卢 阅读(2439) 评论(1) 推荐(1) 编辑
摘要:1、字符串移位包含问题//普通解法bool contain_check(){ char s[6] = "AABCD"; char d[5] = "CDAA"; int len = strlen(s); for(int i=0; i size) { size = n[*s+128]; ch = *s; } s++; } }}3、给一个字符串,有大小写字母,要求写一个函数把小写字母放在前面,大写字母放在后面,尽量使用最小的空间、时... 阅读全文
posted @ 2012-11-12 13:02 阿凡卢 阅读(8025) 评论(5) 推荐(2) 编辑
摘要:后缀数组是处理字符串的有力工具。后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多功能而时间复杂度也并不逊色,而且它比后缀树所占用的内存空间小很多。子串:字符串S的子串r[i..j],i<=j,表示r串中从i到j这一段,也就是顺次排列r[i],r[i+1],...,r[j]形成的字符串。后缀:后缀是指从某个位置i开始到整个串末尾结束的一个特殊子串。字符串 s 的从第i个字符开始的后缀表示为Suffix(i), 也就是Suffix(i)=r[i..len(s)]。大小比较:关于字符串的大小比较,是指通常所说的“字典顺序”比较,也就是对于两个字符串u、v,令 阅读全文
posted @ 2012-10-05 12:44 阿凡卢 阅读(2868) 评论(0) 推荐(1) 编辑
摘要:题目:求一个字符串中最长的没有重复字符的子串。方法一:穷举法,使用2重外循环遍历所有的区间,用2重内循环检验子串是否符合“无重复字符”这一要求。其中外层循环i、j 遍历所有的下标,m、n是内层循环,检查区间[i,j]是否符合要求。空间复杂度是O(1),时间复杂度O(N^4)。//O(N^4)的时间复杂度int max_unique_substring1(char * str){ int maxlen = 0; int begin = 0; int n = strlen(str); for(int i=0; i<n; ++i) for(int j=1; j<... 阅读全文
posted @ 2012-10-02 18:19 阿凡卢 阅读(13374) 评论(4) 推荐(1) 编辑
摘要:二分搜索折半搜索,也称二分查找算法、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。如果在某一步骤数... 阅读全文
posted @ 2012-10-02 10:14 阿凡卢 阅读(1589) 评论(2) 推荐(1) 编辑
摘要:卡特兰数 catalan number卡特兰数前几项为 : 1, 1, 2, 5, 14, 42, 132, 429, 1430, 4862, 16796, 58786, 208012, 742900, 2674440, 9694845, 35357670, 129644790, 477638700, 1767263190, 6564120420, 24466267020, 91482563640, 343059613650, 1289904147324, 4861946401452, ...原理令h(0)=1,h(1)=1,catalan数满足递推式[1]:h(n)= h(0)*h(n-1) 阅读全文
posted @ 2012-10-01 14:24 阿凡卢 阅读(1091) 评论(0) 推荐(0) 编辑
摘要:P01: 01背包问题题目:有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使价值总和最大。基本思路:这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状态转移方程便是:f[i][v] = max{ f[i-1][v], f[i-1][v-c[i]] + w[i]}这个方程非常重要,基本上所有跟背包相关的问题的方程都是由它衍生出来的。所以有必要将它详细解释一下:“将前i件物品放入容量为v的背包中”这个子问题,若只考虑第i件物品的策略 阅读全文
posted @ 2012-10-01 09:50 阿凡卢 阅读(637) 评论(0) 推荐(1) 编辑
摘要:原文:Median of two sorted arrays题目:两个有序数组A和B,大小都是n,寻找这两个数组合并后的中位数。时间复杂度为O(logn)。中位数:如果数组的个数是奇数,那么中位数的值就是有序时处于中间的数;如果数组个数是偶数的,那么就是有序时中间两个数的平均值。方法一:合并时计数使用Merge Sort时的Merge操作,比较两个数组时候计数,当计数达到n时,就可以得到中位数,在归并的数组中,中位数为下标n-1和n的两个数的平均值。时间复杂度O(n)。#include <stdio.h> /* This function returns median of a.. 阅读全文
posted @ 2012-09-13 22:05 阿凡卢 阅读(6787) 评论(1) 推荐(2) 编辑
摘要:磁盘文件排序问题描述,来自《编程珠玑》:输入:一个最多含有n个不相同的正整数的文件,其中每个数都小于等于n,且n=10^7。输出:得到按从小到大升序排列的包含所有输入的整数的列表。条件:最多有大约1MB的内存空间可用,但磁盘空间足够。且要求运行时间在5分钟以下,10秒为最佳结果。 分析: 1、归并排 阅读全文
posted @ 2012-09-12 10:12 阿凡卢 阅读(2715) 评论(1) 推荐(2) 编辑
摘要:寻找最大的K个数,如果所有的数据全部可以放入内存,就可以使用random select算法在线性时间内寻找第K大的数,再得到最大的K个数。 参考:http://www.cnblogs.com/luxiaoxun/archive/2012/08/06/2624799.html 如果不能把所有数据的数据 阅读全文
posted @ 2012-09-11 10:09 阿凡卢 阅读(8551) 评论(2) 推荐(3) 编辑
摘要:利用等概率函数Rand5产生等概率函数Rand3问题描述:现在有一个叫做Rand5的函数,可以生成等概率的[0, 5)范围内的随机整数,要求利用此函数写一个Rand3函数(除此之外,不能再使用任何能产生随机数的函数或数据源),生成等概率的[0, 3)范围内的随机整数。//使用Rand5()实现Rand3() int Rand3() { int x; do { x = Rand5(); } while (x >= 3); return x; } //利用Rand3编写Rand5怎么办? int Rand5() ... 阅读全文
posted @ 2012-09-10 10:02 阿凡卢 阅读(4022) 评论(4) 推荐(1) 编辑
摘要:1、问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行,并且每行被抽中的概率相等? 首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand()函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢 阅读全文
posted @ 2012-09-09 10:03 阿凡卢 阅读(4454) 评论(0) 推荐(1) 编辑