01 2017 档案

摘要:背景:基于call客,来电和跟进记录等多个数据来源的用户文档,需要在更新是判断首来源的时间。 如对电话号码11xxxx来说,来电时间是今天,call客时间是昨天,而call客数据又可能因为网络原因晚上传上来,这样一来11xxxx这个用户document的来源时间需要更新成昨天。 分析:solr的默认 阅读全文
posted @ 2017-01-10 11:52 Arli 阅读(1214) 评论(0) 推荐(0)
摘要:场景描述:前段时间,将实时数据通过kafka+flume+morphline的方式接入到solr中。新进来的数据已经可以在solr中看到了,但是以前的历史数据还没有导入solr。 CDH提供利用MapReduceIndexerTool来将HDFS的数据导入到solr。 历史数据格式类似如下按年/月/ 阅读全文
posted @ 2017-01-04 15:20 Arli 阅读(1918) 评论(0) 推荐(0)
摘要:问题描述如标题。 异常信息如下: 对应开源问题单: https://issues.apache.org/jira/browse/SOLR-8050 solr5.4 solr6.0版本修复了该问题。而cloudera的社区版还存在该问题。 规避思路:虽然日期字段不支持部分更新,可以先转换为string 阅读全文
posted @ 2017-01-03 12:47 Arli 阅读(2292) 评论(0) 推荐(0)
摘要:背景:在考察了多种工具后,我们决定使用solr来作为多标签用户管理体系的查询方案。 原计划:电话,call客,跟进等等记录上报到kafka,然后通过flume+morphline录入到solr中。每一个用户是一个独立的父文档,然后每新增一条来电/call客/跟进记录,则会在用户的父文档下增加一个嵌套子文档。 这样设计的好处是,一个文档就能记录一个用户所有的记录,并且还支持多维度的标签查询满足条件... 阅读全文
posted @ 2017-01-03 12:33 Arli 阅读(2025) 评论(1) 推荐(0)
摘要:背景:morphline是一个轻量级的etl工具。除了提供标准化的方法之外,还可以定制化的开发java片段。定制化的java片段会在加载时被作为一个独立的类编译,对源数据作处理。 morphline关于java片段的例子,在配置文件上编写java代码太难了,尤其是在中文输入法下,可能逗号或者引号打错了也浑然不知。 java { imports : "import java.util.*;" ... 阅读全文
posted @ 2017-01-03 11:28 Arli 阅读(899) 评论(0) 推荐(0)