I choose , I like…………
要走好明天的路,必须记住昨天走过的路,思索今天正在走着的路。
posts - 67,comments - 147,trackbacks - 20
       在数据传输中,由于衰减或干扰会使数据代码发生突变,此时就要提高数据代码的抗干扰能力.

  这必须在原二进制代码长度的基础上增加几位二进制代码的长度,使相应数据具有一定的冗余度,也称做富裕度.

 

        简单地说,所谓冗余度,就是从安全角度考虑多余的一个量,这个量就是为了保障仪器、设备或某项工作在非正常情况下也能正常运转。目前大多现代产品和工程设计中都应用了冗余度这个思想和理论。在许多医疗单位中药品存量不足,卫生材料存量不够,一遇突发事件,就会造成缺货,造成涨价风波,影响社会安定。在我们的医院中,由于各项费用都与经济效益挂钩,医疗设备等卫生装备冗余度很不够,基本上只能按平时的正常运转设置,甚至有的都没达到。一遇突发事件,这点装备就显得严重不足。

  冗余度,通俗的讲就是数据的重复度。在一个数据集合中重复的数据称为数据冗余

 

 

 

 

posted @ 2011-08-19 21:03 飞翔的Angela 阅读(12) 评论(0)  编辑
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。
  VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
  M个无序特征项ti ,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大.
  向量空间模型 (或 词组向量模型) 是一个应用于信息过滤, 信息撷取, 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。
  文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。
  搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。
  实际上,计算夹角向量之间的余弦比直接计算夹角容易:
  余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。

  通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。

 

 http://baike.baidu.com/view/963517.htm

posted @ 2011-08-19 16:16 飞翔的Angela 阅读(25) 评论(0)  编辑
 Latent Dirichlet Allocation Introduction 

 

LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测
的数据,LDA可以随机生成一篇由N 个主题组成文章。通过对文本的建模,我们可以对文本
进行主题分类,判断相似度等。在90 年代提出的 LSA 中,通过对向量空间进行降维,获得
文本的潜在语义空间。在 LDA 中则是通过将文本映射到主题空间,即认为一个文章有若干
主题随机组成,从而获得文本间的关系。LDA 模型有一个前提:bag of word。意思就是认为
文档就是一个词的集合,忽略任何语法或者出现顺序关系。

 

LDA的建模过程是逆向通过文本集合建立生成模型,在讨论如何建模时,我们先要理解 LDA
的生成模型如何生成一篇文档。 
假设一个语料库中有三个主题:体育,科技,电影 
一篇描述电影制作过程的文档,可能同时包含主题科技和主题电影,而主题科技中有一系列
的词,这些词和科技有关,并且他们有一个概率,代表的是在主题为科技的文章中该词出现
的概率。同理在主题电影中也有一系列和电影有关的词,并对应一个出现概率。当生成一篇
关于电影制作的文档时,首先随机选择某一主题,选择到科技和电影两主题的概率更高;然
后选择单词,选择到那些和主题相关的词的概率更高。这样就就完成了一个单词的选择。不

断选择N个单词,这样就组成了一篇文档。  

 

Blog: http://foreveralbum.yo2.cn  

posted @ 2011-08-18 21:21 飞翔的Angela 阅读(170) 评论(0)  编辑

       它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。 

  Google的PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

  Google有一套自动化方法来计算这些投票。Google的PageRank分值从0到10;PageRank为10表示最佳,但非常少见,类似里氏震级(Richter scale),PageRank级别也不是线性的,而是按照一种指数刻度。这是一种奇特的数学术语,意思是PageRank4不是比PageRank3好一级——而可能会好6到7倍。因此,一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大的多。
  PageRank较高的页面的排名往往要比PageRank较低的页面高,而这导致了人们对链接的着魔。在整个SEO社区,人们忙于争夺、交换甚至销售链接,它是过去几年来人们关注的焦点,以至于Google修改了他的系统,并开始放弃某些类型的链接。比如,被人们广泛接受的一条规定,来自缺乏内容的“link farm”(链接工厂)网站的链接将不会提供页面的PageRank,从PageRank较高的页面得到链接但是内容不相关(比如说某个流行的漫画书网站链接到一个叉车规范页面),也不会提供页面的PageRank。Google选择降低了对PageRank的更新频率,以便不鼓励人们不断的对其进行监测。
  Google PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没有,这不是什么不好的事情,耐心等待就好了。
  为您的网站获取外部链接是一件好事,但是无视其他SEO领域的工作而进行急迫的链接建设就是浪费时间,要时刻保持一个整体思路并记住以下几点:
  ·Google的排名算法并不是完全基于外部链接的
  ·高PageRank并不能保证Google高排名
  ·PageRank值更新的比较慢,今天看到的PageRank值可能是三个月前的值
  因此我们不鼓励刻意的去追求PageRank,因为决定排名的因素可以有上百种。尽管如此,PageRank还是一个用来了解Google对您的网站页面如何评价的相当好的指示,建议网站设计者要充分认识PageRank在Google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予PageRank足够的分析,很好的利用。我们要将PageRank看作是一种业余爱好而不是一种信仰。 


PageRank相关算法

PageRank

基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T)

  其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。
  优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
  不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。

 

Topic-Sensitive PageRank

  (主题敏感的PageRank)
  基本思想:针对PageRank对主题的忽略而提出。核心思想:通过离线计算出一个PageRank向量集合,该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定。
  优点:根据用户的查询请求和相关上下文判断用户查询相关的主题(用户的兴趣)返回查询结果准确性高。
  不足:没有利用主题的相关性来提高链接得分的准确性。

Hilltop

  基本思想:与PageRank的不同之处:仅考虑专家页面的链接。主要包括两个步骤:专家页面搜索和目标页面排序。
  优点:相关性强,结果准确。
  不足:专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性,而专家页面的质量和公平性难以保证;忽略了大量非专家页面的影响,不能反应整个Internet的民意;当没有足够的专家页面存在时,返回空,所以Hilltop适合对于查询排序进行求精。


影响PageRank的因素

  1 与pr高的网站做链接:
  2 内容质量高的网站链接
  3 加入搜索引擎分类目录
  4 加入免费开源目录
  5 你的链接出现在流量大、知名度高、频繁更新的重要网站上
  6 google对PDF格式的文件比较看重。
  7 安装Google工具条
  8 域名和tilte标题出现关键词与meta标签
  9 反向连接数量和反向连接的等级
  10 Google抓取您网站的页面数量
  11 导出链接数量

 

 

 http://baike.baidu.com/view/1518.htm

posted @ 2011-08-18 21:03 飞翔的Angela 阅读(21) 评论(0)  编辑

 

    若要向多维数据集添加新数据,而现有数据没有更改而且多维数据集结构不变,则可进行增量更新。 "增量更新 "选项添加新数据并更新聚合。   

 

       增量更新是指在进行更新操作时,只更新需要改变的地方,不需要更新或者已经更新过的地方则不会重复更新,增量更新与完全更新相对。这种更新的概念应用范围比较广泛,凡是需要进行数据更新的地方都会用到,如软件更新、数据库更新、杀毒软件的病毒库更新、CMS更新和路由表更新等。


    因为增量更新用新数据创建了临时分区并将其合并到现有分区中,所以在执行增量更新之前,先要了解对于分区的特殊考虑事项。  

 

    增量更新需要过滤条件,否则数据集中数据会重复。 

 

特点:

  1.只更新需要更新的地方;
  2.相对于完全更新更快捷,处理量减少;

  3.采用增量更新需要在更新前设定规则,规定更新的策略;

 

 

http://topic.csdn.net/t/20040102/17/2627471.html 

 

   

 

posted @ 2011-08-18 20:48 飞翔的Angela 阅读(25) 评论(0)  编辑
摘要: 北京——济南 北京长途汽车站 长途汽车时刻一览表阅读全文
posted @ 2009-01-13 11:03 飞翔的Angela 阅读(6636) 评论(4) 编辑
摘要: 2009年,牛气冲天!运气开始好转,我要好好的把握!阅读全文
posted @ 2009-01-06 15:54 飞翔的Angela 阅读(179) 评论(0) 编辑
摘要: 偶可能是在弥补本科时候的遗憾,对台湾偶像剧上瘾已久!阅读全文
posted @ 2008-11-22 20:11 飞翔的Angela 阅读(2367) 评论(4) 编辑
摘要: 使用一种特殊的编程语言、编程很牛,单单靠这个并不能说一名程序员/开发者就是优秀程序员/开发者。 快速发展的开发环境使得这个行业比我今天看到的任何一个行业都要发展迅速,这既有积极的一面也有消极的一面:今天的程序员/开发者有很多编程语言、开发工具和开发平台可选,但是建立一个安全、可扩展的环境却变得难了很多;硬件和软件正日新月异地变得更加复杂,但现在学习新技术比过去要难太多了。 阅读全文
posted @ 2008-11-17 08:45 飞翔的Angela 阅读(257) 评论(2) 编辑
摘要: 系统的设计需要一个记录,记录就用文档,那么对项目所有包括技术上的设计都记录下来,我们就可以理解为软件的概要设计了。在需求明确、准备开始编码之前,要做概要设计,而详细设计可能大部分公司没有做,有做的也大部分是和编码同步进行,或者在编码之后。因此,对大部分的公司来说,概要设计文档是唯一的设计文档,对后面的开发、测试、实施、维护工作起到关键性的影响。阅读全文
posted @ 2008-11-10 08:59 飞翔的Angela 阅读(1617) 评论(3) 编辑
摘要: 夜里能否睡得好,晚上吃了什么非常重要。《黄帝内经》里曾有“胃不合则卧不安”的说法;临床营养学家也指出,导致睡眠障碍的原因之一,就是晚餐中吃了一些“不宜”的食物。那么,究竟晚上吃什么有利于睡眠,而哪些食物会让你夜不能寐呢? 阅读全文
posted @ 2008-10-31 11:28 飞翔的Angela 阅读(546) 评论(5) 编辑
摘要: 最近OpenID是互联网上最热的新科技之一。到底它是什么呢?阅读全文
posted @ 2008-10-31 09:55 飞翔的Angela 阅读(264) 评论(0) 编辑
摘要: 因为成年人的体型变化,往往首先从腰腹部增大开始,肥胖体型的特征也首先表现在腰腹部脂肪堆积上,“粗腰,大腹便便”不仅直接影响到一个人的精神面貌,也带来行动上的不便,而且也会影响到内脏器官的正常功能,常此以往,还会对健康造成威胁。 下面介绍几种简单易行的,不需要特殊设施,且随时都可以进行的锻炼方法。 阅读全文
posted @ 2008-10-30 17:28 飞翔的Angela 阅读(290) 评论(0) 编辑
摘要: 大腿和小腿都很粗,如何才能减掉多余的脂肪呢?困饶您的问题也困饶着许多人,因为身体最难减的就是大腿,要想减大腿肉,做有氧是必须的,但是一定要达到量:把心率保持在正常心率的60%--80%,而且是保持这个频率30分钟。以下七个瘦腿小动作,每个动作做五分钟,坚持两周以上,你就能看到效果。 阅读全文
posted @ 2008-10-30 17:26 飞翔的Angela 阅读(250) 评论(1) 编辑
摘要: Dojo开发包本身提供了多种widget,它们涵盖了大部分在web开发中可能会使用的界面组件,如下拉菜单、树形菜单等,开发人员只需要在JavaScript代码中声明对特定widget的引用,就可以使用标记的方式在页面中加入widget。当然这些widget并不一定能完成满足实际应用的需要,开发人员也可以通过继承的方式在现有widget的基础上进行功能扩展。 此外,在web应用中可能会有多处地方使用相同或者类似的界面,因此在页面中可能会有大量类似或者重复的代码。这时开发人员可以定义新的widget,在页面中使用标记的方式实现界面代码的重用。 阅读全文
posted @ 2008-10-28 17:24 飞翔的Angela 阅读(2065) 评论(0) 编辑