频繁子图挖掘

http://www.swarmagents.com/complex/models/network.htm
http://www.physics.ubc.ca/~jinshanw/project/net/review_C/node1.html

关联规则挖掘算法综述 http://www.chinaai.org/Article_Show.asp?ArticleID=230
http://en.wikipedia.org/wiki/Apriori_algorithm

===========

关于频繁子图挖掘的一点看法

Akihiro Inokuchi等人最早将Apriori算法思想应用到频繁子图挖掘中[1]，引起了诸多学者对频繁子图挖掘的注意，各种算法也就应运而生[2][3]，最近，韩家炜等人提出了将FP-growth思想应用到子图挖掘中[4][5]，使得频繁子图挖掘算法得到了迅速发展。后来，许多研究人员，如Jun Huan等人提出了FFSM[7]等基于FP-growth思想的算法，使得频繁子图挖掘算法得到了进一步的发展。

频繁子图挖掘

频繁子图挖掘算法的两个性能瓶颈：一是产生候选子图，二是计算候选子图的支持度(频繁度)。要解决第一部分，主要就是快速的生成候选子图，不要产生冗余的候选子图；第二部分就是要解决子图同构问题，而子图同构是一个NP问题，因此必须避免或者简化子图同构问题。

基于图的频繁子图挖掘算法的主要步骤:

（1）唯一标识一个图（Canonical code）：唯一标识一个图可以用来简化子图同构问题，从而可以方便地判断冗余子图，并快速地计算出候选子图的支持度。目前有以下几种方法来唯一标识一个图：DFS Code、邻接矩阵、Tree code symbols。当然除了列出的方法外，还可以采用其他的方法来对图进行唯一标识。选取何种方法对图进行标识，取决于算法。对图进行唯一标识是解决子图挖掘的一个最重要的步骤。

（2）使用简化措施来简化输入数据库或者对子图同构问题进行简化定义，来避免子图同构问题。这个步骤是可选的。

（3） 生成候选子图，可以采用如下方法：每次添加一个顶点，可能会引入一条或者多条边；每次添加一条边，有两种情况：引入一条边和一个新的顶点；只引入了一条边，将子图中的两个顶点进行连接。

（4） 对生成的候选子图进行剪枝：无论采用何种算法都可能会产生冗余候选子图，而计算候选子图的支持度需要多次扫描数据库，非常浪费时间，因此必须对生成的候选子图进行剪枝。

（5） 计算支持度：计算候选子图支持的问题在采用了Canonical code 来唯一标识一个图后，就是寻找与该子图的Canonical Code相同的图的个数问题。

现存的频繁子图挖掘算法对大数据量的来说，大部分速度都太慢，因此，应用不是很广泛，但是频繁子图挖掘是数据挖掘很具有前途的研究方向之一。

复杂网络分析

每一个网络都有其自身的特殊性质：紧密联系的独特现象、自身演化的特定机制，但是这些都可以使用网络分析的方法进行研究，因为网络中存在着一些共性。研究网络的几何性质、网络的形成机制、网络演化的统计规律、网络上的模型性质、以及网络的结构稳定性，并把它与具体系统结合起来是复杂网络研究的中心内容。近几年来，很多学者对复杂网络进行研究，相继发现了几乎相似的统计规律。根据统计参数的不同，可用幂律分布、小世界（small world）、大群集（large clustering）等来描述复杂网络普遍存在的规律。研究复杂网络，让我们认识到了以前的网络理论尚未涉及的问题:各种复杂系统具有相同的严格结构，都受制于某些基本的法则，这些法则似乎可同等地适用于细胞、计算机、语言和社会。更进一步，认识这些法则，会帮助我们解决一系列重要问题，包括开发更好的药物、防止黑客侵入互联网、阻止致命流行病的传播等等。从统计的角度看，复杂网络拓扑介于规则网络和完全无规则的随机网络之间，因此表现出一定的随机性和自组织特性。复杂网络拓扑的研究尚处于起步阶段，有关机理和理论有待深入，对相关拓扑性质的理解也有待加强。

目前复杂网络的研究都只是考虑了度等的分布形式，并提出了BA模型来研究节点如何加入网络中的演化过程，而这些对网络分析来说是远远不够的，如果将频繁子图挖掘算法和复杂网络分析结合起来，对过对频繁子图进行简化定义，比如只考虑全连通子图(clique)，n-clique，n-clans，k-plexes，n-cores等[]，并结合复杂网络分析的方法来研究网络对网络分析，一定会挖掘出很多有意义的结果。

参考文献

1 A.Inokuchi, T.Washio,and H.Motoda. An apriori-based algorithm for mining frequent substructures from graph data.In Proceedings of the 4th European Conference on Principles and Practice of Data Mining and Knowledge Discovery (PKDD-2000), pages 13–23, 2000.Proceedings of the 8th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM press,2002.

2 Akihiro Inokuchi,Takashi Washio, Hiroshi Motoda.Applying the Apriori-based Graph Mining Method to Mutagenesis Data Analysis. Journal of Computer Aided Chemistry, 2001, 2,87-92.

3 Akihiro Inokuchi,Takashi Kunio Nishimura, Hiroshi Motoda. A Fast Algorithm for Mining Frequent Connected Subgraph IBM Research, Tokyo Research Laboratory, 10 pages, 2002.

4 Xifeng Yan , Jiawei Han . gspan : Graph-based substructure pattern mining. Technical Report UIUCDCS- R-2002-2296, Department of Computer Science, University of Illinois at Urbana-Champaign, 2002.

5 Akihiro Inokuchi,Takashi Hiroshi Motoda.Complette Mining of Frequent Patterns from Graphs: Mining Graph Data In: Machine Learning, pages 321-354, 2003.

6 Jia-Wei Han, Jian Pei, and Xi-Feng Yan “From Sequential Pattern Mining to Structured Pattern Mining:A Pattern-Growth Approach” Journal of Computer Science and Technology, Vol.19,No.3, May 2004, page 257

7 Jun Huan,Wei Wang,Jan Prins and JiongYang.“SPIN:Mining Maximal Frequent Subgraphs from Graph Databases”.UNC Technical Report TR04-018, 2004.

8 Robert A. Hanneman introduction to social network Methods,

http://faculty.ucr.edu/~hanneman/networks/nettext.pdf

posted on 2008-11-04 10:46 anf 阅读(1944) 评论(0) 收藏举报

刷新页面返回顶部

爱猫的狗

导航

公告