爱猫的狗

拥抱变化

导航

频繁子图 挖掘

http://www.swarmagents.com/complex/models/network.htm
http://www.physics.ubc.ca/~jinshanw/project/net/review_C/node1.html

关联规则挖掘算法综述 http://www.chinaai.org/Article_Show.asp?ArticleID=230
http://en.wikipedia.org/wiki/Apriori_algorithm


===========

关于频繁子图挖掘的一点看法

 

Akihiro Inokuchi等人最早将Apriori算法思想应用到频繁子图挖掘中[1],引起了诸多学者对频繁子图挖掘的注意,各种算法也就应运而生[2][3],最近,韩家炜等人提出了将FP-growth思想应用到子图挖掘中[4][5],使得频繁子图挖掘算法得到了迅速发展。后来,许多研究人员,如Jun Huan等人提出了FFSM[7]等基于FP-growth思想的算法,使得频繁子图挖掘算法得到了进一步的发展。

 

频繁子图挖掘

 

频繁子图挖掘算法的两个性能瓶颈:一是产生候选子图,二是计算候选子图的支持度(频繁度)。要解决第一部分,主要就是快速的生成候选子图,不要产生冗余的候选子图;第二部分就是要解决子图同构问题,而子图同构是一个NP问题,因此必须避免或者简化子图同构问题。

基于图的频繁子图挖掘算法的主要步骤:

1唯一标识一个图Canonical code):唯一标识一个图可以用来简化子图同构问题,从而可以方便地判断冗余子图,并快速地计算出候选子图的支持度。目前有以下几种方法来唯一标识一个图:DFS Code、邻接矩阵、Tree code symbols。当然除了列出的方法外,还可以采用其他的方法来对图进行唯一标识。选取何种方法对图进行标识,取决于算法。对图进行唯一标识是解决子图挖掘的一个最重要的步骤。

(2)    使用简化措施来简化输入数据库或者对子图同构问题进行简化定义,来避免子图同构问题。这个步骤是可选的。

(3)    生成候选子图,可以采用如下方法:每次添加一个顶点,可能会引入一条或者多条边;每次添加一条边,有两种情况:引入一条边和一个新的顶点;只引入了一条边,将子图中的两个顶点进行连接。

(4)    对生成的候选子图进行剪枝:无论采用何种算法都可能会产生冗余候选子图,而计算候选子图的支持度需要多次扫描数据库,非常浪费时间,因此必须对生成的候选子图进行剪枝。

(5)    计算支持度:计算候选子图支持的问题在采用了Canonical code 来唯一标识一个图后,就是寻找与该子图的Canonical Code相同的图的个数问题。

现存的频繁子图挖掘算法对大数据量的来说,大部分速度都太慢,因此,应用不是很广泛,但是频繁子图挖掘是数据挖掘很具有前途的研究方向之一。

复杂网络分析

   每一个网络都有其自身的特殊性质:紧密联系的独特现象、自身演化的特定机制,但是这些都可以使用网络分析的方法进行研究,因为网络中存在着一些共性。研究网络的几何性质、网络的形成机制、网络演化的统计规律、网络上的模型性质、以及网络的结构稳定性,并把它与具体系统结合起来是复杂网络研究的中心内容。近几年来,很多学者对复杂网络进行研究,相继发现了几乎相似的统计规律。根据统计参数的不同,可用幂律分布、小世界(small world)、大群集(large clustering等来描述复杂网络普遍存在的规律。研究复杂网络,让我们认识到了以前的网络理论尚未涉及的问题:各种复杂系统具有相同的严格结构,都受制于某些基本的法则,这些法则似乎可同等地适用于细胞、计算机、语言和社会。更进一步,认识这些法则,会帮助我们解决一系列重要问题,包括开发更好的药物、防止黑客侵入互联网、阻止致命流行病的传播等等。从统计的角度看,复杂网络拓扑介于规则网络和完全无规则的随机网络之间,因此表现出一定的随机性和自组织特性。复杂网络拓扑的研究尚处于起步阶段,有关机理和理论有待深入,对相关拓扑性质的理解也有待加强。

目前复杂网络的研究都只是考虑了度等的分布形式,并提出了BA模型来研究节点如何加入网络中的演化过程,而这些对网络分析来说是远远不够的,如果将频繁子图挖掘算法和复杂网络分析结合起来,对过对频繁子图进行简化定义,比如只考虑全连通子图(clique)n-cliquen-clansk-plexesn-cores[],并结合复杂网络分析的方法来研究网络对网络分析,一定会挖掘出很多有意义的结果。

  

参 考 文献

 

1                  A.Inokuchi, T.Washio,and H.Motoda. An apriori-based algorithm for mining frequent substructures from graph data.In Proceedings of the 4th European  Conference on Principles and Practice of Data Mining and Knowledge Discovery  (PKDD-2000), pages 13–23, 2000.Proceedings of the 8th ACM SIGKDD international   conference on Knowledge discovery and data mining. ACM press,2002.

2                  Akihiro Inokuchi,Takashi Washio, Hiroshi Motoda.Applying the Apriori-based Graph Mining Method to Mutagenesis Data Analysis. Journal of Computer Aided Chemistry, 2001, 2,87-92.

3                  Akihiro Inokuchi,Takashi Kunio Nishimura, Hiroshi Motoda. A Fast Algorithm for Mining Frequent Connected Subgraph IBM Research, Tokyo Research Laboratory, 10 pages, 2002.

4                  Xifeng Yan , Jiawei Han . gspan : Graph-based substructure pattern mining. Technical Report UIUCDCS- R-2002-2296, Department of Computer Science, University of Illinois at Urbana-Champaign, 2002.

5                  Akihiro Inokuchi,Takashi Hiroshi Motoda.Complette Mining of Frequent Patterns from Graphs: Mining Graph Data In: Machine Learning, pages 321-354, 2003.

6                  Jia-Wei Han, Jian Pei, and Xi-Feng Yan  “From Sequential Pattern Mining to Structured Pattern Mining:A Pattern-Growth Approach”   Journal of Computer Science and Technology, Vol.19,No.3, May 2004, page 257

7                  Jun Huan,Wei Wang,Jan Prins and JiongYang.“SPIN:Mining Maximal Frequent Subgraphs from Graph Databases”.UNC Technical Report TR04-018, 2004.

8                  Robert A. Hanneman introduction to social network Methods,

http://faculty.ucr.edu/~hanneman/networks/nettext.pdf

 

posted on 2008-11-04 10:46  anf  阅读(1901)  评论(0编辑  收藏  举报