2014 年 7月随笔档案 - 飞扬的薰衣草

nginx rewrite

摘要：#locationfordoclocation~*^/search/doc/.*${ rewrite^/search/doc/([\d,]+)/(\d+)/(\d+)/([^/]+)$/search/doc?channelid=$1&start=$2&limit=$3&q=$4break... 阅读全文

posted @ 2014-07-31 18:42 飞扬的薰衣草阅读(110) 评论(0) 推荐(0)

怎样充分借助互联网自学？

摘要：原文出自知乎：http://www.zhihu.com/question/21107510有很多朋友写私信和E-mail问我：“我应该怎么读书？读不进去怎么办？读了记不住怎么办？记住了用不上又怎么办？”关于类似的问题，我每天可以收到十几封信件。但是碍于时间和精力有限，我真的很难每封信都单独回复。所以... 阅读全文

posted @ 2014-07-30 12:58 飞扬的薰衣草阅读(215) 评论(0) 推荐(0)

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

摘要：原文出自：http://forfuture1978.iteye.com/blog/591804点击打开链接在索引阶段设置Document Boost和Field Boost，存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要，如果此文档和此域包含所要查询的词则应该得分较高，则可以在索... 阅读全文

posted @ 2014-07-28 11:49 飞扬的薰衣草阅读(179) 评论(0) 推荐(0)

Solr查询过程源码分析

摘要：原文出自：http://blog.csdn.net/flyingpig4/article/details/6305488SearchHandler.handleRequestBody()：solr搜索主流程1.调用：RequestHandlerBase|--handleRequest(req, rs... 阅读全文

posted @ 2014-07-25 18:43 飞扬的薰衣草阅读(378) 评论(0) 推荐(0)

solr调优参考

摘要：转自：http://rdc.taobao.com/team/jm/archives/1753共整理三部分，第一部分Solr常规处理，第二部分针对性性处理，前者比较通用，后者有局限性。务必根据具体应用特性，具体调节参数，对比性能。第三部分solr查询相关的具体应用需要全面去把控，各个因素一起起作用。第... 阅读全文

posted @ 2014-07-17 14:19 飞扬的薰衣草阅读(262) 评论(0) 推荐(0)

23岁到35岁该如何实现资产增值？如何不陷入结婚生孩子买房的恶性循环中？

摘要：原文出自：http://www.zhihu.com/question/23444019一未婚女性朋友，一线城市3年前27岁买小房，只有6万，借6万，（人品不错）这3年房贷过的稍微拮据一点，但也不至于影响生活，旅游啥的一年二次。工资不高，小几K. 主要家里没负担，胆大敢贷款，现在奔三，虽然要结婚，但不... 阅读全文

posted @ 2014-07-16 13:07 飞扬的薰衣草阅读(246) 评论(0) 推荐(0)

HTTP深入浅出 http请求

摘要：HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和We... 阅读全文

posted @ 2014-07-16 10:00 飞扬的薰衣草阅读(161) 评论(0) 推荐(0)

Lucene打分公式的数学推导

摘要：原文出自：http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html在进行Lucene的搜索过程解析之前，有必要单独的一张把Lucene score公式的推导，各部分的意义阐述一下。因为Lucene的搜索过程，很重要的一个... 阅读全文

posted @ 2014-07-15 17:06 飞扬的薰衣草阅读(175) 评论(0) 推荐(0)

solr ：term 查询， phrase查询， boolean 查询

摘要：搜索总体有：term 查询， phrase查询， boolean 查询1. SOLR搜索覆盖度和准确度保证的三个搜索方式：保证准确率： AND: Search for two different terms, new and house, requiring both to match 。完全相同逻... 阅读全文

posted @ 2014-07-15 14:33 飞扬的薰衣草阅读(367) 评论(0) 推荐(0)

企业级搜索引擎Solr 第三章索引数据（Indexing Data）

摘要：虽然本书中假设你要建索引的内容都是有着良好结构的，比如数据库表，XML文件，CSV，但在现实中我们要保存很混乱的数据，或是二进制文件，如PDF，Microsoft Office，甚至是图片和音乐文件。我（Eric Pugh）在首次使用Solr时，就需要处理客户在几年间产生的大量PDF和Micr... 阅读全文

posted @ 2014-07-15 10:05 飞扬的薰衣草阅读(517) 评论(0) 推荐(0)

lucene、solr中的日期衰减方法-------function query --尚未测试在solr4.8

摘要：经常有一种情景是这样的：我们索引了N年的文章，而查询时候无论直接用相关度、或者用时间排序，都是比较鲁莽的；我们想要一种既要相关度比较高，又要时间上比较新的文章。这时候的解决办法就是，自定义日期衰减的ValueSourceQuery，然后在正常normalQuery的基础上后遭CustomScoreQ... 阅读全文

posted @ 2014-07-14 18:48 飞扬的薰衣草阅读(740) 评论(0) 推荐(0)

secureCrt常用命令

摘要：一、常用命令：1、ls 只列出文件名（相当于dir，dir也可以使用） -A:列出所有文件，包含隐藏文件。 -l：列表形式，包含文件的绝大部分属性。 -R：递归显示。 --help：此命令的帮助。 2、cd 改变目录 cd /:进入根目录 cd ：回到自己的目录（用户不同则目录也不同，root为/... 阅读全文

posted @ 2014-07-14 14:01 飞扬的薰衣草阅读(401) 评论(0) 推荐(0)

【Java基础专题】编码与乱码(05)---GBK与UTF-8之间的转换

摘要：原文出自：http://www.blogjava.net/pengpenglin/archive/2010/02/22/313669.html在很多论坛、网上经常有网友问“为什么我使用 new String(tmp.getBytes("ISO-8859-1"), "UTF-8") 或者 new St... 阅读全文

posted @ 2014-07-10 17:56 飞扬的薰衣草阅读(265) 评论(0) 推荐(0)

solr search基础知识（控制符及其参数）

摘要：1、^ 控制符（1）查询串上用^搜索：天后王菲，如果希望将王菲的相关度加大，用^控制符。天后王菲^10.5 结果就会将含有王菲的document权重加大分数提高，排序靠前，10.5为权重。(2)feild上用^name ^ 10即name含有搜索串时候，权重比content含有搜索串的权重高，分... 阅读全文

posted @ 2014-07-09 14:41 飞扬的薰衣草阅读(426) 评论(0) 推荐(0)

java中的字符，字节和编码

摘要：1. 编码问题的由来，相关概念的理解1.1 字符与编码的发展从计算机对多国语言的支持角度看，大致可以分为三个阶段：系统内码说明系统阶段一ASCII计算机刚开始只支持英语，其它语言不能够在计算机上存储和显示。英文 DOS阶段二ANSI编码（本地化）为使计算机支持更多语言，通常使用 0x80~0xFF ... 阅读全文

posted @ 2014-07-08 15:59 飞扬的薰衣草阅读(203) 评论(0) 推荐(0)

solr的查询语法、查询参数、检索运算符

摘要：转载自：http://martin3000.iteye.com/blog/13289311、查询语法solr的一些查询语法1.1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字... 阅读全文

posted @ 2014-07-08 09:38 飞扬的薰衣草阅读(506) 评论(0) 推荐(0)

solr的copyFeild用法（改变各个feild的权重，修改打分结果）-注意！

摘要：copyField的dest字段all本身有分析器处理：假设为mmseg4jname，title，description三个字段都复制到all字段上：其中title和description都是mmseg4j分析器的字段类型；name是string类型；搜索all上的“黄海波视频”----------... 阅读全文

posted @ 2014-07-07 17:50 飞扬的薰衣草阅读(259) 评论(0) 推荐(0)

solr注意事项-solrconfig中的默认搜索域会覆盖schema中的默认搜索域，注意copyfeild中被corp的字段搜索

摘要：结论一：solrconfig.xml的默认搜索配置权限高于schema.xml中的默认搜索配置！配置1：solrconfig.xml文件中关于select的配置： explicit 10 text//默认搜索字段为text；配置2：schema.xml中的默认搜索配置为：... 阅读全文

posted @ 2014-07-04 17:12 飞扬的薰衣草阅读(717) 评论(0) 推荐(0)

solrconfig.xml配置详解

摘要：solrconfig.xml配置文件主要定义了SOLR的一些处理规则，包括索引数据的存放位置，更新，删除，查询的一些规则配置。可以在tomcat的安装路径下找到这个文件C:\Program Files\Apache Software Foundation\Tomcat 8.0\solr\collec... 阅读全文

posted @ 2014-07-04 14:41 飞扬的薰衣草阅读(205) 评论(0) 推荐(0)

Lucene源码解析--Analyzer之Tokenizer

摘要：Analyzer包含两个核心组件，Tokenizer以及TokenFilter。两者的区别在于，前者在字符级别处理流，而后者则在词语级别处理流。Tokenizer是Analyzer的第一步，其构造函数接收一个Reader作为参数，而TokenFilter则是一个类似的拦截器，其参数可以是TokenS... 阅读全文

posted @ 2014-07-03 11:55 飞扬的薰衣草阅读(202) 评论(0) 推荐(0)

solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）

摘要：概念说明：同义词大体的意思是指，当用户输入一个词时，solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出，展示给用户，提高交互的友好性（当然这些同义词的定义是要在配置文件中事先定义好的），比如：用户输入：日本，那么就可能有一些相关的近义词如：鬼子，屠杀，战犯等的词，这个可在配... 阅读全文

posted @ 2014-07-02 14:15 飞扬的薰衣草阅读(306) 评论(0) 推荐(0)

MMSeg中文分词算法

摘要：Java中有一些开源的分词项目，比如：IK、Paoding、MMSEG4J等等。这里主要说的是MMSEG4J中使用的MMSeg算法。它的原文介绍在：http://technology.chtsai.org/mmseg/，是用英文书写的，这是只是它的一个中文笔记。为什么中文要分词中文和英文的书写方式不... 阅读全文

posted @ 2014-07-02 10:18 飞扬的薰衣草阅读(338) 评论(0) 推荐(0)

飞扬的薰衣草

拒绝阅读和吸取新信息-忽略灵魂；拒绝运动-忽略健康！

07 2014 档案

公告