2019年3月21日

摘要: Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个 阅读全文
posted @ 2019-03-21 19:53 深圳私塾 阅读(876) 评论(0) 推荐(0)
摘要: 初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么明明有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(term)了? 3.我自定义分词规则,但感觉好麻烦呢,无从下手 1.从一个实例出发,如下创建一个文档: 然 阅读全文
posted @ 2019-03-21 19:40 深圳私塾 阅读(10824) 评论(0) 推荐(3)
摘要: Presto 的平均查询性能是 Hive 的 10 倍! 由于 Presto 的数据源具有完全解耦、高性能,以及对 ANSI SQL 的支持等特性,使得 Presto 在 ETL、实时数据计算、 Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用。 由于 Presto 卓越的性能表 阅读全文
posted @ 2019-03-21 11:02 深圳私塾 阅读(597) 评论(0) 推荐(0)
摘要: Round One: 平局:共同点就是吃内存; Round Two: Impala胜 Impala查询性能稍领先于presto Round Three: presto胜 presto在数据源支持上非常丰富,包括hive、图数据库、传统关系型数据库、Redis等 Round Four: 平局: 这两种 阅读全文
posted @ 2019-03-21 09:37 深圳私塾 阅读(460) 评论(0) 推荐(0)

导航