随笔列表第9页 - 小橋流水

SpamRank

摘要： SpamRank的基本思想与TrustRank基本一致。它的假设是：对于非作弊页面来说，指向其的链接页面一般来说是非均匀分布的；而对于作弊页面，支持页面的pagerank值一般都是比较小的。具体做法是：1、首先计算每个页面的支持权重。2、判断页面是否满足Power low分布（这个分部是互联网一个比较准确的估计），对于不满足该分布的页面判断为spam页面，进行惩罚，降低其pagerank值。阅读全文

posted @ 2010-02-01 07:08 小橋流水阅读(249) 评论(0) 推荐(0) 编辑

BadRank

摘要： BadRank是通过spam种子来发现更多的spam页面的一种方法。该方法基于的假设是：指向spam页面的页面通常也是spam页面（TrustRank假设的逆否）。将WEB的所有链接反向，得到反向的WEB图。人工选择一些spam页面种子，在pagerank中的初始向量d中，这些种子对应的分量置1，其余为0。然后对d做一下规一化处理。最后在反向图上，利用该d跑偏向性的pagerank算法，得到的pa... 阅读全文

posted @ 2010-01-31 07:40 小橋流水阅读(263) 评论(0) 推荐(0) 编辑

TrustRank

摘要： TrustRank是combatwebspam中最经典的方法之一，其他文章都与其进行比较。该方法基于的假设是：好的叶面很少指向spam页面。具体做法是选择一些好的页面（goodseeds），在初始向量中d，这些好的种子页面置1，其余置0。最后再对d进行一下规一化处理。然后利用该d计算偏向性的PageRank值，即为TrustRank值。该值越高说明该页面越值得信赖，是spam的概率越低。阅读全文

posted @ 2010-01-29 08:37 小橋流水阅读(239) 评论(0) 推荐(0) 编辑

python实现的链表栈

摘要： Stack class EmptyStackException(Exception): pass class Element: def __init__(self, value, next): self.value = value self.next = next class Stack: def __init__(self): ... 阅读全文

posted @ 2010-01-17 10:40 小橋流水阅读(188) 评论(0) 推荐(0) 编辑

SetMutableGraph

摘要：写了一个SetMutableGraph，主要是在ArrayListMutableGraph的基础上用IntAVLTreeSet自动排序，效率应该不错。代码如下：欢迎搞web数据挖掘的同学一起探讨研究： package edu.dut.wisdom; /* * Copyright (C) 2006-2007 Sebastiano Vigna * * This program is free... 阅读全文

posted @ 2009-12-29 14:22 小橋流水阅读(189) 评论(0) 推荐(0) 编辑

WebGraph使用小结

摘要： WebGraph是一个非常不错的web图工具，网站地址http://webgraph.dsi.unimi.it/，提供多种图的格式，更可贵的是提供一种压缩图格式。 ImmutableGraph用来遍历，ASCIIGraph用来读取ASCIIGraph格式，ArrayListMutableGraph用来构建自己的web图，但是实现的不是很快捷，我自己实现了一个稍微改进的版本： public cl... 阅读全文

posted @ 2009-12-26 11:35 小橋流水阅读(749) 评论(0) 推荐(0) 编辑

latex中插入visio矢量图的方法

摘要：其实，我们用visio画的都是矢量图，只是我们通常转换成位图（jpg等格式）后再使用，这样其实就失去了矢量图的价值了。这里讲一种在latex中插入viso生成的矢量图的方法。首先，在我们的电脑中安装adobe acrobat（当然用盗版的），然后打开visio将visio画的图打印成pdf ，然后用acrobat打开该pdf，菜单-》文档-》裁剪，选中删除白边距，确定即可，然后将该pdf加... 阅读全文

posted @ 2009-12-13 13:44 小橋流水阅读(1269) 评论(0) 推荐(0) 编辑

OCR验证码识别

摘要：最近，想做一个刷票的程序，有验证码，好在验证码不是很复杂，所以就想着能不能识别。开始想用svm来分类，但是不知道怎么回事，识别率达不到要求，可能中间的某个环节没有做好。听说神经网络也很好，但是本人对神经网络不怎么熟悉。后来到网上查找资料的时候，有人用ocr来做验证码的识别，开始觉得有点杀鸡用牛刀的感觉，但是苦于没有其他的办法，只能一试。开始想用office的ocr组件，但是发现根本就识别不... 阅读全文

posted @ 2009-12-04 05:15 小橋流水阅读(764) 评论(1) 推荐(0) 编辑

vhd安装windows 7 64位

摘要：今天做实验的时候，由于数据太大，超过了2G，最终出现了outofmemory异常，没办法，后来想可能使用64位系统就能运行成功了。但是我磁盘空间比较紧张，正好前段时间听说能在vhd里装系统，今天正好体验一把。首先用计算机管理中的磁盘管理创建一个vhd磁盘，最大大小设置为20G以上，动态或固定的都行，如果是动态的话，要确保有足够的空间，否则在后面的过程将出现蓝屏错误。将创建出来的vhd磁... 阅读全文

posted @ 2009-11-15 17:02 小橋流水阅读(240) 评论(0) 推荐(0) 编辑

基于PageRank的作弊检测算法

摘要： Spam Rank TrustRank Topical TrustRank Anti-Trust Rank HostRank BadRank 阅读全文

posted @ 2009-11-12 13:40 小橋流水阅读(193) 评论(0) 推荐(0) 编辑

ubuntu9.10中科大源

摘要： deb http://Ubuntu.uestc.edu.cn/ubuntu/ karmic main restricted universe multiversedeb http://Ubuntu.uestc.edu.cn/ubuntu/ karmic-backports main restricted universe multiversedeb http://Ubuntu.uestc.edu.... 阅读全文

posted @ 2009-11-12 10:57 小橋流水阅读(228) 评论(0) 推荐(0) 编辑

图深度优先搜索DFS

摘要：刚刚写了图的广度优先算法，现在完成深度优先算法DFS，color等的意义和上一篇一致，但f用于记录完成时间。 DFS color = {} pai = {} d = {} time = 0 f = {} # 记录完成时间 def DFS(G): for u in G.keys(): color[u] = 'WHITE' pai[u] = 'NIL' ... 阅读全文

posted @ 2009-10-19 13:23 小橋流水阅读(334) 评论(0) 推荐(0) 编辑

图的广度优先搜索算法GFS

摘要：为了记录搜索的轨迹，广度优先搜索将每个顶点都找色为白色、灰色和黑色。算法开始时，所有的顶点都是白色的。伴随着搜索的进行，各顶点会逐渐变成灰色，然后成为黑色。与黑色顶点相邻的所有定点都是已经被发现的。灰色顶点可能会有一些白色的相邻顶点，他们代表了已发现与未发现顶点之间的边界。对于每一个顶点u，其色彩存储于变量color[u]中，u的父母存于变量pai[u]中。具体代码如下所示（python实现）... 阅读全文

posted @ 2009-10-19 12:36 小橋流水阅读(325) 评论(0) 推荐(0) 编辑

Latex、Lyx学习备忘

摘要： Latex、Lyx命令备忘阅读全文

posted @ 2009-10-11 19:20 小橋流水阅读(764) 评论(1) 推荐(1) 编辑

Python实现数据挖掘十大算法之Apriori

摘要：最近刚学Python，就用Python写了一个算法，由于不熟练的原因，实现得并不好，但结果是对的，代码如下： # -*- coding: UTF8 -*- import sys import copy def init_pass(T): C = {} for t in T: for i in t: if i in C.keys(): ... 阅读全文

posted @ 2009-10-11 16:59 小橋流水阅读(806) 评论(0) 推荐(0) 编辑

配置SQL SERVER垂直分片

摘要： SQL SERVER垂直分片阅读全文

posted @ 2009-10-09 19:55 小橋流水阅读(771) 评论(0) 推荐(0) 编辑

[Java]找出400-800间素数的三种方法

摘要：找出400-800间素数的三种方法，第二次Java上机作业一道题。阅读全文

posted @ 2009-10-07 16:25 小橋流水阅读(480) 评论(0) 推荐(0) 编辑

配置SQL SERVER 2005 分布式水平分片

摘要： SQL Server 2005 分布式水平分片配置阅读全文

posted @ 2009-10-04 13:14 小橋流水阅读(2937) 评论(7) 推荐(1) 编辑

找出200-400之间素数的快速算法

摘要：找出200-400之间素数的快速算法，python实现阅读全文

posted @ 2009-09-24 08:29 小橋流水阅读(459) 评论(4) 推荐(0) 编辑

找出200-400之间素数的快速算法

摘要： def isPrime(number): divisor = 3 testLimit = number if number % 2 == 0: return False while testLimit > divisor: if number % divisor == 0: return False ... 阅读全文

posted @ 2009-09-24 08:29 小橋流水阅读(488) 评论(0) 推荐(0) 编辑

小橋流水's Blog

公告

导航