用SMO算法优化垃圾标签检测模型 - 名求求

公告

　生物医学工程论文　摘要：针对垃圾标签检测数据集特征维数高，规模大的问题，提出利用序列最小最优化算法大幅度约减庞大的垃圾标签特征数据集，同时保持原有分类精度，降低训练时间。为Folksonomy的垃圾标签检测研究拓宽道路。
　　关键词：垃圾标签；序列最小最优化算法；约减
　　
　　0．引言
　　随着Web2.0技术架构的推广，社会化标签系统越来越受到人们的欢迎，但它容易受到社会垃圾（SocialSpam）或垃圾标签的干扰。目前检测垃圾标签的主流途径是从用户中检测出垃圾投放人，通过控制垃圾投放人的行为，达到减少垃圾标签的效果。现行检测方法有朴素贝叶斯法[2]、神经网络[3]、支持向量机[3]等。然而，社会化标签系统的数据量极为庞大。现有方法几乎都是直接采用分类算法进行分类检测，虽然都有不同程度的效果，但检测速度慢。少数方法通过采用设计统计量描述特征、随机抽取样本点等方法压缩数据集。这些方法虽然能把数据集控制在一定小规模内，但具有一定局限性，容易造成特征丢失，影响检测精度。本篇将采用序列最小最优化算法约减大规模的垃圾标签数据集，实现对检测模型的优化，在保证检测精度的同时，大幅度提高分类检测的速度。
　　
　　1. 垃圾标签检测模型
　　1.1 Folksonomy用户的向量空间模型
　　在Folksonomy中，整个系统体现了用户、标签和资源三者的关系。其用户的形式化定义为[4]：
　　定义（Folksonomy用户定义）对于给定的用户uU，Pu是F对u的约束，即Pu:=(Tu，Ru，Iu，﹤u)，其中Iu:={(t，r)T×R|(u，t，r)Y}，Tu:=1(Iu)，Ru:=2(Iu)，﹤u:={(t1，t2)T×T|(u，t1，t2)﹤}。这里表示投影，i表示第i元的投影。
　　根据以上定义可知，用户可以由其标识过的标签和对应的资源一起联合描述。本篇的垃圾标签检测模型将利用这一定义，采用字符串连接的方式将标签、资源结合，即用户使用过的标签词汇和对应资源连接成字符串文本。经此转化可得到新的用户文本形式。在此基础上借鉴文本特征的处理方法，对其进行词条切分，构建词典，然后利用文本的向量空间模型[5]表征，最后得到如下新的用户特征模型：
　　Uk=(Wk1，Wk2，…，Wkg，Wkg+1，Wkg+2，…，Wkh)，
　　其中，用户特征向量维数由构建的词典大小决定。Wki为第k个用户文本中使用了词典第i个分词的权重。利用TF/IDF函数计算权重。函数中的N表示用户模型总数，n(i)表示训练集中使用标签分词i的用户数。
　　1.2 SVM二次规划模型
　　支持向量机(SupportVectorMachines,SVM)理论是Vapnik[6][7]等人提出用来具体实现统计学习理论核心思想的一种通用的学习方法。支持向量机的训练算法主要在于求解一个凸二次规划问题，考虑其原始问题的对偶问题，引入Lagrange乘子，其公式如下：
　　(1)
　　可得该问题的最优解为其决策函数为
　　(2)
　　其中。事实上，最优解的每一个分量都对应一个训练点。因此，构造的分化超平面仅仅依赖于那些对应于不为零的训练点，这些训练点就称为支持向量，而其他对应于为零的训练点则称为非支持向量。发表论文网
　　

posted on 2011-01-15 10:03 名求求阅读(161) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

天天好心情

公告