随笔分类 - 数据结构

海量数据处理常见方法

摘要：所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小：分而治之/hash映射，你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处阅读全文

posted @ 2012-09-05 23:17 linzuxin 阅读(205) 评论(0) 推荐(0)

linux mysql proxy 的安装，配置，以及读写分离

摘要：一，mysql proxy是什么，干什么用的MySQL Proxy就是这么一个中间层代理，简单的说，MySQL Proxy就是一个连接池，负责将前台应用的连接请求转发给后台的数据库，并且通过使用lua脚本，可以实现复杂的连接控制和过滤，从而实现读写分离和负载平衡。对于应用来说，MySQL Proxy是完全透明的，应用则只需要连接到MySQL Proxy的监听端口即可。当然，这样proxy机器可能成为单点失效，但完全可以使用多个proxy机器做为冗余，在应用服务器的连接池配置中配置到多个proxy的连接参数即可。mysql replication 数据同步上图中，web到底连接那个数据库，阅读全文

posted @ 2012-05-29 14:50 linzuxin 阅读(563) 评论(0) 推荐(0)

最短路径算法—Dijkstra(迪杰斯特拉)算法分析与实现(C/C++)

摘要：Dijkstra(迪杰斯特拉)算法是典型的最短路径路由算法，用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展，直到扩展到终点为止。Dijkstra算法能得出最短路径的最优解，但由于它遍历计算的节点很多，所以效率低。 Dijkstra算法是很有代表性的最短路算法，在很多专业课程中都作为基本内容有详细的介绍，如数据结构，图论，运筹学等等。其基本思想是，设置顶点集合S并不断地作贪心选择来扩充这个集合。一个顶点属于集合S当且仅当从源到该顶点的最短路径长度已知。初始时，S中仅含有源。设u是G的某一个顶点，把从源到u且中间只经过S中顶点的路称为从源到u的特殊路径，并用数组d. 阅读全文

posted @ 2012-05-05 20:44 linzuxin 阅读(319) 评论(0) 推荐(0)

数据结构：TRIE树

摘要：Trie树就是字符树，其核心思想就是空间换时间。举个简单的例子。给你100000个长度不超过10的单词。对于每一个单词，我们要判断他出没出现过，如果出现了，第一次出现第几个位置。这题当然可以用hash来，但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词，我要询问它的前缀是否出现过。这样hash就不好搞了，而用trie还是很简单。现在回到例子中，如果我们用最傻的方法，对于每一个单词，我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd，那么在他前面的单词中，以b，c 阅读全文

posted @ 2012-05-04 21:32 linzuxin 阅读(174) 评论(0) 推荐(0)

Trie树|字典树的简介及实现

摘要：Trie,又称字典树、单词查找树,是一种树形结构，用于保存大量的字符串。它的优点是：利用字符串的公共前缀来节约存储空间。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点.其基本性质可以归纳为：1. 根节点不包含字符，除根节点外每一个节点都只包含一个字符。2. 从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。3. 每个节点的所有子节点包含的字符都不相同。其基本操作有:查找插入和删除,当然删除操作比较少见.我在这里只是实现了对整阅读全文

posted @ 2012-05-04 21:20 linzuxin 阅读(236) 评论(0) 推荐(0)

Hash和Bloom Filter

摘要：这几天的“科研”中涉及到了一个概念，Bloom Filter（有的中文翻译为布隆过滤器，不知道正确否），今天看了下相关的资料，发现这东西和Hash还挺有关系的，在这里一并讲下。Hash（函数/表）Hash （中译为哈希，或者散列）函数在计算机领域，尤其是数据快速查找领域，加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面（这些小的数据集叫做哈希值，或者散列值）。Hash table（散列表，也叫哈希表），是根据哈希值(Key value)而直接进行访问的数据结构。也就是说，它通过把哈希值映射到表中一个位置来访问记录，以加快查找的速度。下面是一个典型的hash函数/表示意图：哈希阅读全文

posted @ 2012-05-04 21:12 linzuxin 阅读(302) 评论(0) 推荐(0)

布隆过滤器 bloom filter

摘要：布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。基本概念如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链表，树等等数据结构都是这种思路. 但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢()。不过世界上还有一种叫作散列表（又叫哈希表，Hash table）的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列（Bit ar 阅读全文

posted @ 2012-05-04 21:04 linzuxin 阅读(213) 评论(0) 推荐(0)

B树、B-树、B+树、B*树

摘要：B树即二叉搜索树：1.所有非叶子结点至多拥有两个儿子（Left和Right）；2.所有结点存储一个关键字；3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如：B树的搜索，从根结点开始，如果查询的关键字与结点的关键字相等，那么就命中；否则，如果查询关键字比结点关键字小，就进入左儿子；如果比结点关键字大，就进入右儿子；如果左儿子或右儿子的指针为空，则报告找不到相应的关键字；如果B树的所有非叶子结点的左右子树的结点数目均保持差不多（平衡），那么B树的搜索性能逼近二分查找；但它比连续内存空间的二分查找的优点是，改变B树结构（插入与删除结点）不需要移动大段的内存数据，甚至通常阅读全文

posted @ 2012-04-09 19:49 linzuxin 阅读(164) 评论(0) 推荐(0)

kruskal算法

摘要：今天数据结构课讲了最小生成树的Kruskal算法和Prim算法，不过都只是概念，可能是怕他们听不懂吧，反正算法实现一概不讲...囧下午抱着《算法导论》跑去图书馆看Kruskal算法，发现《算法导论》真的是牛XXXX的书啊，看完之后豁然开朗，而且惊讶地发现Kruskal算法居然用到了前两天研究的并查集，爽歪歪了...Kruskal比较适用于稀疏图，是一种贪心算法:为使生成树上边的权值和最小，则应使生成树中每一条边的权值尽可能地小。具体做法:找出森林中连接任意两棵树的所有边中，具有最小权值的边，如果将它加入生成树中不产生回路，则它就是生成树中的一条边。这里的关键就是如何判断"将它加入生成阅读全文

posted @ 2012-04-06 23:03 linzuxin 阅读(211) 评论(0) 推荐(0)

Prim算法

摘要：前几天研究Kruskal算法，直接上手就是并查集优化，朴素算法压根就没写。这两天看Prim算法也想略过朴素版O(n^2)直接用二叉堆优化，可是发现不看朴素算法根本写不出来...囧，看来还是不能忽略基础...草稿纸上画图模拟推演了半天，终于搞清楚Prim算法朴素版的C语言实现，拿出那天学Kruskal的小题目测试了一下，通过。代码的注释我写得很详细，方便理解，有几点需要说明一下。1、2个for循环都是从2开始的，因为一般我们默认开始就把第一个节点加入生成树，因此之后不需要再次寻找它。2、lowcost[i]记录的是以节点i为终点的最小边权值。初始化时因为默认把第一个节点加入生成树，因此lowco 阅读全文

posted @ 2012-04-06 21:51 linzuxin 阅读(246) 评论(0) 推荐(0)

并查集（不相交集合）

摘要：不相交集合有两种不同的实现，链表表示和带路径压缩的按秩合并策略。看到大家都比较喜欢用带路径压缩的按秩合并策略，那么我只认真研究了一下带路径压缩的按秩合并策略，暂时不对链表表示作讨论。顾名思义，并查集的作用不就的“并”和“查”嘛。并查集的功能描述为：合并两个集合;将一元素并入另一集体;判断两个元素是否属于同一个集合。通过引用两种启发式策略（按秩合并和路径压缩）就可以达到渐进意义上最快的不相交集合数据结构。1、make_set(x) 把每一个元素初始化为一个集合建立一个新的集合，其中集合只有唯一的一个元素x2、union_set(x, y)按秩合并x，y所在的集合3、find_set(x).. 阅读全文

posted @ 2012-04-06 21:44 linzuxin 阅读(241) 评论(0) 推荐(0)

二叉排序树

摘要：1.定义二叉排序树(Binary Search Tree)又称二叉搜索(查找)树，其定义如下： (1)若它的左子树非空，则左子树上所有结点的权值都比根结点的权值小; (2)若它的右子数非空，则右子树上所有结点的权值都比根结点的权值大; (3)左、右子树本身又是一棵二叉排序树。以上既是二叉排序树的定义，同时也是它的性质。从定义可以看出，二叉排序树的定义是一个递归的定义。对于一棵二叉排序树的中序遍历则是一个递增有序序列。2.二叉排序树的插入Insert 根据二叉排序树的递归定义，进行插入操作的时候可以用递归实现，其插入过程如下： (1)如果二叉排序树为空，则创建一个关键字为key的结点，并将其作为阅读全文

posted @ 2012-04-05 23:48 linzuxin 阅读(222) 评论(0) 推荐(0)

堆排序

摘要：堆排序堆排序是利用堆的性质进行的一种选择排序。下面先讨论一下堆。1.堆堆实际上是一棵完全二叉树，其任何一非叶节点满足性质： Key[i]<=key[2i+1]&&Key[i]<=key[2i+2]或者Key[i]>=Key[2i+1]&&key>=key[2i+2] 即任何一非叶节点的关键字不大于或者不小于其左右孩子节点的关键字。堆分为大顶堆和小顶堆，满足Key[i]>=Key[2i+1]&&key>=key[2i+2]称为大顶堆，满足 Key[i]<=key[2i+1]&&Key[i 阅读全文

posted @ 2012-04-05 23:39 linzuxin 阅读(163) 评论(0) 推荐(0)

各种排序算法的稳定性和时间复杂度小结

摘要：选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法，冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。冒泡法：这是最原始，也是众所周知的最慢的算法了。他的名字的由来因为它的工作看来象是冒泡：复杂度为O(n*n)。当数据为正序，将不会有交换。复杂度为O(0)。直接插入排序：O(n*n)选择排序：O(n*n)快速排序：平均时间复杂度log2(n)*n，所有内部排序方法中最高好的，大多数情况下总是最好的。归并排序：log2(n)*n堆排序：log2(n)*n希尔排序：算法的复杂度为n的1.2次幂这里我没有给出行为的分析，因为这个很简单，我们直接来分析算法：首先我们考虑最理想的情况1.数组阅读全文

posted @ 2012-03-30 22:23 linzuxin 阅读(165) 评论(0) 推荐(0)

linzuxin