jony413

多媒体信息发布、排队叫号、医院分诊、电子班牌

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

文章分类 -  Program

c#,c,c++,regex
摘要:在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。其中Wk是Tk的权重,1<=k 阅读全文
posted @ 2012-08-15 16:13 jony413 阅读(345) 评论(0) 推荐(0)

摘要:排序采用下面的算法:score(q,d) = sum( tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d) ) * coord(q,d) * queryNorm(q)。q 是查询 d 是一篇文章, score 表示 q 在 d 中的评分。t 表示 q 的一个部分,一个词汇: 比如,中国人民 可能会分割成 “中国” 和 “人民”,q = “中国人民”,t= {“中国” ,“人民”}。tf 表示 term frequency 词频,就是这个词汇在一篇文章中出现的次数。所以有个d参数。idf ,是另外一个参数 阅读全文
posted @ 2012-07-31 16:13 jony413 阅读(489) 评论(0) 推荐(0)

摘要:整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字:"^[0-9]+$"。只能输入n位的数字:"^\d{n}$"。只能输入至少n位的数字:"^\d{n,}$"。只能输入m~n位的数字:。"^\d{m,n}$"只能输入零和非零开头的数字:"^(0|[1-9][0-9]+)$"。只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"。只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"。只 阅读全文
posted @ 2011-11-08 17:41 jony413 阅读(146) 评论(0) 推荐(0)