在数据传输中,由于衰减或干扰会使数据代码发生突变,此时就要提高数据代码的抗干扰能力. 这必须在原二进制代码长度的基础上增加几位二进制代码的长度,使相应数据具有一定的冗余度,也称做富裕度.
简单地说,所谓冗余度,就是从安全角度考虑多余的一个量,这个量就是为了保障仪器、设备或某项工作在非正常情况下也能正常运转。目前大多现代产品和工程设计中都应用了冗余度这个思想和理论。在许多医疗单位中药品存量不足,卫生材料存量不够,一遇突发事件,就会造成缺货,造成涨价风波,影响社会安定。在我们的医院中,由于各项费用都与经济效益挂钩,医疗设备等卫生装备冗余度很不够,基本上只能按平时的正常运转设置,甚至有的都没达到。一遇突发事件,这点装备就显得严重不足。 冗余度,通俗的讲就是数据的重复度。在一个数据集合中重复的数据称为数据冗余
posted @ 2011-08-19 21:03 飞翔的Angela 阅读(12) 评论(0)
编辑
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。 VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。 M个无序特征项ti ,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大. 向量空间模型 (或 词组向量模型) 是一个应用于信息过滤, 信息撷取, 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。 文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。 搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。 实际上,计算夹角向量之间的余弦比直接计算夹角容易: 余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。 通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
http://baike.baidu.com/view/963517.htm
posted @ 2011-08-19 16:16 飞翔的Angela 阅读(25) 评论(0)
编辑
Latent Dirichlet Allocation Introduction
LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测
的数据,LDA可以随机生成一篇由N 个主题组成文章。通过对文本的建模,我们可以对文本
进行主题分类,判断相似度等。在90 年代提出的 LSA 中,通过对向量空间进行降维,获得
文本的潜在语义空间。在 LDA 中则是通过将文本映射到主题空间,即认为一个文章有若干
主题随机组成,从而获得文本间的关系。LDA 模型有一个前提:bag of word。意思就是认为
文档就是一个词的集合,忽略任何语法或者出现顺序关系。
LDA的建模过程是逆向通过文本集合建立生成模型,在讨论如何建模时,我们先要理解 LDA
的生成模型如何生成一篇文档。
假设一个语料库中有三个主题:体育,科技,电影
一篇描述电影制作过程的文档,可能同时包含主题科技和主题电影,而主题科技中有一系列
的词,这些词和科技有关,并且他们有一个概率,代表的是在主题为科技的文章中该词出现
的概率。同理在主题电影中也有一系列和电影有关的词,并对应一个出现概率。当生成一篇
关于电影制作的文档时,首先随机选择某一主题,选择到科技和电影两主题的概率更高;然
后选择单词,选择到那些和主题相关的词的概率更高。这样就就完成了一个单词的选择。不
断选择N个单词,这样就组成了一篇文档。
Blog: http://foreveralbum.yo2.cn
posted @ 2011-08-18 21:21 飞翔的Angela 阅读(170) 评论(0)
编辑
它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。
Google的PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。 Google有一套自动化方法来计算这些投票。Google的PageRank分值从0到10;PageRank为10表示最佳,但非常少见,类似里氏震级(Richter scale),PageRank级别也不是线性的,而是按照一种指数刻度。这是一种奇特的数学术语,意思是PageRank4不是比PageRank3好一级——而可能会好6到7倍。因此,一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大的多。 PageRank较高的页面的排名往往要比PageRank较低的页面高,而这导致了人们对链接的着魔。在整个SEO社区,人们忙于争夺、交换甚至销售链接,它是过去几年来人们关注的焦点,以至于Google修改了他的系统,并开始放弃某些类型的链接。比如,被人们广泛接受的一条规定,来自缺乏内容的“link farm”(链接工厂)网站的链接将不会提供页面的PageRank,从PageRank较高的页面得到链接但是内容不相关(比如说某个流行的漫画书网站链接到一个叉车规范页面),也不会提供页面的PageRank。Google选择降低了对PageRank的更新频率,以便不鼓励人们不断的对其进行监测。 Google PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没有,这不是什么不好的事情,耐心等待就好了。 为您的网站获取外部链接是一件好事,但是无视其他SEO领域的工作而进行急迫的链接建设就是浪费时间,要时刻保持一个整体思路并记住以下几点: ·Google的排名算法并不是完全基于外部链接的 ·高PageRank并不能保证Google高排名 ·PageRank值更新的比较慢,今天看到的PageRank值可能是三个月前的值 因此我们不鼓励刻意的去追求PageRank,因为决定排名的因素可以有上百种。尽管如此,PageRank还是一个用来了解Google对您的网站页面如何评价的相当好的指示,建议网站设计者要充分认识PageRank在Google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予PageRank足够的分析,很好的利用。我们要将PageRank看作是一种业余爱好而不是一种信仰。
PageRank相关算法
PageRank
基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T) 其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。 优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。
Topic-Sensitive PageRank
(主题敏感的PageRank) 基本思想:针对PageRank对主题的忽略而提出。核心思想:通过离线计算出一个PageRank向量集合,该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定。 优点:根据用户的查询请求和相关上下文判断用户查询相关的主题(用户的兴趣)返回查询结果准确性高。 不足:没有利用主题的相关性来提高链接得分的准确性。Hilltop
基本思想:与PageRank的不同之处:仅考虑专家页面的链接。主要包括两个步骤:专家页面搜索和目标页面排序。 优点:相关性强,结果准确。 不足:专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性,而专家页面的质量和公平性难以保证;忽略了大量非专家页面的影响,不能反应整个Internet的民意;当没有足够的专家页面存在时,返回空,所以Hilltop适合对于查询排序进行求精。
影响PageRank的因素
1 与pr高的网站做链接: 2 内容质量高的网站链接 3 加入搜索引擎分类目录 4 加入免费开源目录 5 你的链接出现在流量大、知名度高、频繁更新的重要网站上 6 google对PDF格式的文件比较看重。 7 安装Google工具条 8 域名和tilte标题出现关键词与meta标签等 9 反向连接数量和反向连接的等级 10 Google抓取您网站的页面数量 11 导出链接数量
http://baike.baidu.com/view/1518.htm
posted @ 2011-08-18 21:03 飞翔的Angela 阅读(21) 评论(0)
编辑
若要向多维数据集添加新数据,而现有数据没有更改而且多维数据集结构不变,则可进行增量更新。 "增量更新 "选项添加新数据并更新聚合。
增量更新是指在进行更新操作时,只更新需要改变的地方,不需要更新或者已经更新过的地方则不会重复更新,增量更新与完全更新相对。这种更新的概念应用范围比较广泛,凡是需要进行数据更新的地方都会用到,如软件更新、数据库更新、杀毒软件的病毒库更新、CMS更新和路由表更新等。
因为增量更新用新数据创建了临时分区并将其合并到现有分区中,所以在执行增量更新之前,先要了解对于分区的特殊考虑事项。
增量更新需要过滤条件,否则数据集中数据会重复。
特点:
1.只更新需要更新的地方; 2.相对于完全更新更快捷,处理量减少; 3.采用增量更新需要在更新前设定规则,规定更新的策略;
http://topic.csdn.net/t/20040102/17/2627471.html
posted @ 2011-08-18 20:48 飞翔的Angela 阅读(25) 评论(0)
编辑