2011-11-09 17:44 by yuejianjun, 22 visits, 网摘, 收藏, 编辑
摘要:索引文件类型:1 Segments文件。记录索引片断文件的情况。2.Deletable文件3.Fields域数据文件(.fnm)。Field的名字都存储在Field信息文件中,后缀是.fnm。 4.存储的Field(.fdx和.fdt)。 Index(.fdx) 对每个文档来说,存储指向它的fields数据(.fdt)的指针(pointer) Fields Data(.fdt)这个文件存储每个文档的field数据5.存储的term字典(.tii和.tis) Term字典使用如下两种文件存储,第一种是存储term信息(TermInfoFile)的文件,即.tis文件 另一种是存储term信息的索
阅读全文
2011-11-09 14:25 by yuejianjun, 33 visits, 网摘, 收藏, 编辑
摘要:根据搜索关键字分词后的多个词属性 term<位置 长度 权重 >,提取一定长度范围内的短语,计算权重 多个词的权重和from:《走进搜索引擎》
阅读全文
2011-11-09 13:42 by yuejianjun, 29 visits, 网摘, 收藏, 编辑
摘要:1 转到定义: F12;2 设置书签:Ctr+K+K;3 设置任务: //TODO:something,查看任务Ctrl+W+T;4 查找:Ctrl+ F, Ctrl+Shift+F;5 强迫智能感知:Ctrl+J;6 强迫智能感知显示参数信息:Ctrl-Shift-空格;7 格式化整个块:Ctrl+K+F;8 全屏幕:Alt+Shift+Enter;9 设置书签:Ctrl+B+T,跳转书签:Ctrl+B+N10 检查括号匹配(在左右括号间切换): Ctrl +]11 选中从光标起到行首(尾)间的代码: Shift + Home(End)12 在方法定义和调用之点切换:Ctrl+Shift+7
阅读全文
2011-11-07 12:14 by yuejianjun, 101 visits, 网摘, 收藏, 编辑
摘要:http://quweiprotoss.blog.163.com/blog/static/408828832011523114133876/ 一个经典的问题,也就是10^N个数,远超过内存的大小,如何排序。答案虽然我自己也想到了,但别人更早想到,经典做法,把文件拆成多份,然后多线程对文件分别进行排序,然后进行多路归并,多路归并时,经典做法就是用优先队列。这也是Lucene在And操作时选择的方法,在DisjunctionSumScorer中有ScorerDocQueue scorerDocQueue,它就是一个优先队列。ScorerDocQueue的成员有:/*保存堆中的元素*/privat.
阅读全文
2011-11-04 17:33 by yuejianjun, 9 visits, 网摘, 收藏, 编辑
摘要:usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Threading;usingComm;usingEntity;namespaceService{publicclassSearchTask{publicstaticReturnItemTaskSearchModuleSecond(QueryItemEntityqueryItemEntity){string[]indexPath=Profile.IndexMod
阅读全文
2011-11-03 15:56 by yuejianjun, 66 visits, 网摘, 收藏, 编辑
摘要:usingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingBusiness;usingLucene.Net.Index;usingLucene.Net.Documents;usingLucene.Net.Analysis;usingLucene.Net.Analysis.PanGu;usingLucene.Net.Search;usingLucene.Net.Store;namespaceIndex{classProgram{privatestaticstringpath=@"D:\Work\HotelInde
阅读全文