摘要:转载的地址:http://blog.163.com/likaifeng@126/blog/static/32097310201171833420905/ 今天操作远端机器的时候发现少一个安装包, 需要传到对方的机器上,还能使用通过的老办法,直接SSH连上去了,发现传的很慢, 只有40K的样子, 看时
阅读全文
摘要:因公司业务需要,对原来在/usr/local/MySQL/data目录下的数据迁移到/data/local/mysql/mysqlData。 原因是系统盘太小,只有20G,几下就快满了。 参考过几篇文章,基于大神们的思路,我封装成了.sh脚本。 步骤如下: 1) 先修改好/etc/my.cnf, #
阅读全文
摘要:公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试过独立编
阅读全文
摘要:一 背景 某一创业的朋友的主机因为磁盘阵列损坏机器crash,重启MySQL服务时 报如下错误: InnoDB: Reading tablespace information from the .ibd files... InnoDB: Restoring possible half-written
阅读全文
摘要:提高性能 短语和邻近度查询比简单的match查询在性能上更昂贵。match查询只是查看词条是否存在于倒排索引(Inverted Index)中,而match_phrase查询则需要计算和比较多个可能重复词条(Multiple possibly repeated)的位置。 在Lucene Nightl
阅读全文
摘要:多值字段(Multivalue Fields) 在多值字段上使用短语匹配会产生古怪的行为: PUT /my_index/groups/1 { "names": [ "John Abraham", "Lincoln Smith"] } 运行一个针对Abraham Lincoln的短语查询: GET /
阅读全文
摘要:本文翻译自Elasticsearch官方指南的Proximity Matching一章。 邻近匹配(Proximity Matching) 使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每个字段,视作"一大袋的单词"(Big bag of Words)。match查询能够告诉我们这个袋子中
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Looking at Time一章。 时间数据处理(Looking at Time) 如果在ES中,搜索是最常见的行为,那么创建日期柱状图(Date Histogram)肯定是第二常见的。为什么要使用日期柱状图呢? 想象在你的数据中有一个时间戳。数据是什
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 function_score查询 function_score查询是处理分值计算过程的终极工具。它让你能够对所有匹配了主查询的每份文档调用一个函数来调整甚至是完全替换原来的_score。 实际上,你可以通
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 忽略TF/IDF 有时我们不需要TF/IDF。我们想知道的只是一个特定的单词是否出现在了字段中。比如我们正在搜索度假酒店,希望它拥有的卖点越多越好: WiFi 花园(Garden) 泳池(Pool) 而关
阅读全文
摘要:数据建模(Modeling Your Data) ES是一头不同寻常的野兽,尤其是当你来自SQL的世界时。它拥有很多优势:性能,可扩展性,准实时的搜索,以及对大数据的分析能力。并且,它很容易上手!只需要下载就能够开始使用它了。 但是它也不是魔法。为了更好的利用ES,你需要了解它从而让它能够满足你的需
阅读全文
摘要:1. 取得某个索引中某个字段中的所有出现过的值 这种操作类似于使用SQL的SELECT UNIQUE语句。当需要获取某个字段上的所有可用值时,可以使用terms聚合查询完成: 因为目标是得到name字段上的所有出现过的值,因此search_type被设置为了count,这样在返回的响应中不会出现冗长
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Partial Matching一章。 索引期间的优化(Index-time Optimizations) 目前我们讨论的所有方案都是在查询期间的。它们不需要任何特殊的映射或者索引模式(Indexing Patterns);它们只是简单地工作在已经存在于
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 控制相关度(Controlling Relevance) 对于仅处理结构化数据(比如日期,数值和字符枚举值)的数据库,它们只需要检查一份文档(在关系数据库中是一行)是否匹配查询即可。 尽管布尔类型的YES
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 Lucene中的Practical Scoring Function 对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean Model),TF/IDF以及向量
阅读全文
摘要:本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 通过查询结构调整相关度 ES提供的查询DSL是相当灵活的。你可以通过将单独的查询子句在查询层次中上下移动来让它更重要/更不重要。比如,下面的查询: quick OR brown OR red OR fox
阅读全文
摘要:基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个
阅读全文
摘要:如果我们一次只能搜索一个词,那么全文搜索就会显得相当不灵活。幸运的是,通过match查询来实现多词查询也同样简单: GET /my_index/my_type/_search { "query": { "match": { "title": "BROWN DOG!" } } } 以上的查询会返回所有
阅读全文
摘要:elasticsearch的查询有两部分组成:query and filter。 两者的主要区别在于:filter是不计算相关性的,同时可以cache。因此,filter速度要快于query。 先记录一下es提供的各种query。 以下内容只为当做读书笔记,更多详细细节请参见http://www.e
阅读全文
摘要:ip=$(cat ${path}initOauth/initinfo.txt |awk '{if(NR==1)print $0;}'|tr -d '\r'); tr命令可以对来自标准输入的字符进行替换、压缩和删除。它可以将一组字符变成另一组字符,经常用来编写优美的单行命令,作用很强大。 tr命令格式
阅读全文