07 2014 档案

摘要:#locationfordoclocation~*^/search/doc/.*${ rewrite^/search/doc/([\d,]+)/(\d+)/(\d+)/([^/]+)$/search/doc?channelid=$1&start=$2&limit=$3&q=$4break... 阅读全文
posted @ 2014-07-31 18:42 飞扬的薰衣草 阅读(110) 评论(0) 推荐(0)
摘要:原文出自知乎:http://www.zhihu.com/question/21107510有很多朋友写私信和E-mail问我:“我应该怎么读书?读不进去怎么办?读了记不住怎么办?记住了用不上又怎么办?”关于类似的问题,我每天可以收到十几封信件。但是碍于时间和精力有限,我真的很难每封信都单独回复。所以... 阅读全文
posted @ 2014-07-30 12:58 飞扬的薰衣草 阅读(215) 评论(0) 推荐(0)
摘要:原文出自:http://forfuture1978.iteye.com/blog/591804点击打开链接在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索... 阅读全文
posted @ 2014-07-28 11:49 飞扬的薰衣草 阅读(179) 评论(0) 推荐(0)
摘要:原文出自:http://blog.csdn.net/flyingpig4/article/details/6305488SearchHandler.handleRequestBody():solr搜索主流程1.调用:RequestHandlerBase|--handleRequest(req, rs... 阅读全文
posted @ 2014-07-25 18:43 飞扬的薰衣草 阅读(378) 评论(0) 推荐(0)
摘要:转自:http://rdc.taobao.com/team/jm/archives/1753共整理三部分,第一部分Solr常规处理,第二部分针对性性处理,前者比较通用,后者有局限性。务必根据具体应用特性,具体调节参数,对比性能。第三部分solr查询相关的具体应用需要全面去把控,各个因素一起起作用。第... 阅读全文
posted @ 2014-07-17 14:19 飞扬的薰衣草 阅读(262) 评论(0) 推荐(0)
摘要:原文出自:http://www.zhihu.com/question/23444019一未婚女性朋友,一线城市3年前27岁买小房,只有6万,借6万,(人品不错)这3年房贷过的稍微拮据一点,但也不至于影响生活,旅游啥的一年二次。工资不高,小几K. 主要家里没负担,胆大敢贷款,现在奔三,虽然要结婚,但不... 阅读全文
posted @ 2014-07-16 13:07 飞扬的薰衣草 阅读(246) 评论(0) 推荐(0)
摘要:HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务,HTTP目前协议的版本是1.1.HTTP是一种无状态的协议,无状态是指Web浏览器和We... 阅读全文
posted @ 2014-07-16 10:00 飞扬的薰衣草 阅读(161) 评论(0) 推荐(0)
摘要:原文出自:http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下。因为Lucene的搜索过程,很重要的一个... 阅读全文
posted @ 2014-07-15 17:06 飞扬的薰衣草 阅读(175) 评论(0) 推荐(0)
摘要:搜索总体有:term 查询, phrase查询, boolean 查询1. SOLR搜索覆盖度和准确度保证的三个搜索方式:保证准确率: AND: Search for two different terms, new and house, requiring both to match 。完全相同逻... 阅读全文
posted @ 2014-07-15 14:33 飞扬的薰衣草 阅读(367) 评论(0) 推荐(0)
摘要:虽然本书中假设你要建索引的内容都是有着良好结构的,比如数据库表,XML文件,CSV,但在现实中我们要保存很混乱的数据,或是二进制文件,如PDF,Microsoft Office,甚至是图片和音乐文件。 我(Eric Pugh)在首次使用Solr时,就需要处理客户在几年间产生的大量PDF和Micr... 阅读全文
posted @ 2014-07-15 10:05 飞扬的薰衣草 阅读(517) 评论(0) 推荐(0)
摘要:经常有一种情景是这样的:我们索引了N年的文章,而查询时候无论直接用相关度、或者用时间排序,都是比较鲁莽的;我们想要一种既要相关度比较高,又要时间上比较新的文章。这时候的解决办法就是,自定义日期衰减的ValueSourceQuery,然后在正常normalQuery的基础上后遭CustomScoreQ... 阅读全文
posted @ 2014-07-14 18:48 飞扬的薰衣草 阅读(740) 评论(0) 推荐(0)
摘要:一、常用命令:1、ls 只列出文件名 (相当于dir,dir也可以使用) -A:列出所有文件,包含隐藏文件。 -l:列表形式,包含文件的绝大部分属性。 -R:递归显示。 --help:此命令的帮助。 2、cd 改变目录 cd /:进入根目录 cd :回到自己的目录(用户不同则目录也不同,root为/... 阅读全文
posted @ 2014-07-14 14:01 飞扬的薰衣草 阅读(401) 评论(0) 推荐(0)
摘要:原文出自:http://www.blogjava.net/pengpenglin/archive/2010/02/22/313669.html在很多论坛、网上经常有网友问“为什么我使用 new String(tmp.getBytes("ISO-8859-1"), "UTF-8") 或者 new St... 阅读全文
posted @ 2014-07-10 17:56 飞扬的薰衣草 阅读(265) 评论(0) 推荐(0)
摘要:1、^ 控制符(1)查询串上用^搜索: 天后王菲,如果希望将王菲的相关度加大,用^控制符。天后 王菲^10.5 结果就会将含有王菲的document权重加大分数提高,排序靠前,10.5为权重。(2)feild上用^name ^ 10即name含有搜索串时候,权重比content含有搜索串的权重高,分... 阅读全文
posted @ 2014-07-09 14:41 飞扬的薰衣草 阅读(426) 评论(0) 推荐(0)
摘要:1. 编码问题的由来,相关概念的理解1.1 字符与编码的发展从计算机对多国语言的支持角度看,大致可以分为三个阶段:系统内码说明系统阶段一ASCII计算机刚开始只支持英语,其它语言不能够在计算机上存储和显示。英文 DOS阶段二ANSI编码(本地化)为使计算机支持更多语言,通常使用 0x80~0xFF ... 阅读全文
posted @ 2014-07-08 15:59 飞扬的薰衣草 阅读(203) 评论(0) 推荐(0)
摘要:转载自:http://martin3000.iteye.com/blog/13289311、查询语法solr的一些查询语法1.1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字... 阅读全文
posted @ 2014-07-08 09:38 飞扬的薰衣草 阅读(506) 评论(0) 推荐(0)
摘要:copyField的dest字段all本身有分析器处理:假设为mmseg4jname,title,description三个字段都复制到all字段上:其中title和description都是mmseg4j分析器的字段类型;name是string类型;搜索all上的“黄海波视频”----------... 阅读全文
posted @ 2014-07-07 17:50 飞扬的薰衣草 阅读(259) 评论(0) 推荐(0)
摘要:结论一:solrconfig.xml的默认搜索配置权限高于schema.xml中的默认搜索配置!配置1:solrconfig.xml文件中关于select的配置: explicit 10 text//默认搜索字段为text; 配置2:schema.xml中的默认搜索配置为:... 阅读全文
posted @ 2014-07-04 17:12 飞扬的薰衣草 阅读(717) 评论(0) 推荐(0)
摘要:solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置。可以在tomcat的安装路径下找到这个文件C:\Program Files\Apache Software Foundation\Tomcat 8.0\solr\collec... 阅读全文
posted @ 2014-07-04 14:41 飞扬的薰衣草 阅读(205) 评论(0) 推荐(0)
摘要:Analyzer包含两个核心组件,Tokenizer以及TokenFilter。两者的区别在于,前者在字符级别处理流,而后者则在词语级别处理流。Tokenizer是Analyzer的第一步,其构造函数接收一个Reader作为参数,而TokenFilter则是一个类似的拦截器,其参数可以是TokenS... 阅读全文
posted @ 2014-07-03 11:55 飞扬的薰衣草 阅读(202) 评论(0) 推荐(0)
摘要:概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先定义好的),比如:用户输入:日本,那么就可能有一些相关的近义词如:鬼子,屠杀,战犯等的词,这个可在配... 阅读全文
posted @ 2014-07-02 14:15 飞扬的薰衣草 阅读(306) 评论(0) 推荐(0)
摘要:Java中有一些开源的分词项目,比如:IK、Paoding、MMSEG4J等等。这里主要说的是MMSEG4J中使用的MMSeg算法。它的原文介绍在:http://technology.chtsai.org/mmseg/,是用英文书写的,这是只是它的一个中文笔记。为什么中文要分词中文和英文的书写方式不... 阅读全文
posted @ 2014-07-02 10:18 飞扬的薰衣草 阅读(338) 评论(0) 推荐(0)