编辑距离

http://zhan.renren.com/moresearchengine?gid=3602888498032170757&from=post\

http://www.searchworkings.org/blog/-/blogs/409474

Lucene Wiki

http://wiki.apache.org/lucene-java/AnalysisParalysis

MySQL show status - show open database connections

http://alvinalexander.com/blog/post/mysql/how-show-open-database-connections-mysql

MBean

http://tech.ccidnet.com/art/3737/20040907/460571_1.html

Http

http://www.sourcestream.com/programming-stuff/java-http-server

Joseuph:

http://java.chinaitlab.com/base/862312.html

http://java.chinaitlab.com/dynamic/862237.html

http://blog.csdn.net/yanghua_kobe/article/details/7296156

http://www.rgagnon.com/javadetails/java-0342.html

http://docs.oracle.com/javase/6/docs/jre/api/net/httpserver/spec/com/sun/net/httpserver/package-summary.html

restful:

http://kb.cnblogs.com/page/91827/

http://www.java2s.com/Questions_And_Answers/Java-Lucene/CatalogJava-Lucene.htm

http://www.cnblogs.com/Laupaul/archive/2012/04/22/2464812.html

NIO

http://hi.baidu.com/hzfsai/blog/item/c30bf91b205abdf4ae51335b.html

Lucene:

http://a280606790.iteye.com/blog/1477490

lucene分词原理：
1.获得文章/记录中的关键字，并对关键字进行处理。如：lives,living->live
2.建立倒排索引。同时记录关键词在文章中出现频率和出现的位置。

lucene的一些特点：
1.关键字是按字符顺序排列的（lucene没有使用B树结构），因此lucene可以用二元搜索算法快速定位关键词。
2.lucene将关键词，关键词出现频率和关键词出现位置分别作为词典文件（Term Dictionary）、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词，还保留了指向频率文件和位置文件的指针，通过指针可以找到该关键字的频率信息和位置信息。
3.Lucene中使用了field的概念，用于表达信息所在位置（如标题中，文章中，url中），在建索引中，该field信息也记录在词典文件中，每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。
4.为了减小索引文件的大小，Lucene对索引还使用了压缩技术。首先，对词典文件中的关键词进行了压缩，关键词压缩为<前缀长度，后缀>，例如：当前词为“阿拉伯语”，上一个词为 “阿拉伯”，那么“阿拉伯语”压缩为<3，语>。其次大量用到的是对数字的压缩，数字只保存与上一个值的差值（这样可以减小数字的长度，进而减少保存该数字需要的字节数）。例如当前文章号是16389（不压缩要用3个字节保存），上一文章号是16382，压缩后保存7（只用一个字节）。

posted @ 2012-11-21 15:21 规格严格-功夫到家阅读(238) 评论(0) 收藏举报

刷新页面返回顶部

规格严格-功夫到家-哈工大威海人

......

编辑距离

MySQL show status - show open database connections

公告