随笔分类 -  DIH

摘要:需求: 从oracle数据库中根据记录的文件名filename_html(多个文件以逗号隔开),文件路径path,备用文件名bakpath中获取主机172.21.0.31上对应的html文件内容,并且只能通过sftp访问html文件,获取文件内容建立索引.问题: 目前的难点是字段filename... 阅读全文
posted @ 2015-02-03 09:16 勿妄 阅读(702) 评论(1) 推荐(1)
摘要:ScriptTransformer可能由java支持的JavaScript语言或者其他脚本语言写成的转换器.只支持Java 6以上版本.例1: .... 例2: ... 阅读全文
posted @ 2015-02-02 13:48 勿妄 阅读(307) 评论(0) 推荐(0)
摘要:一个简单的实体处理程序,可以用于枚举标准文件系统中的文件列表,它不需要使用DataSource.属性如下:fileName:(必填) 用正则表达式来标记文件名baseDir:(必填) 基础目录,绝对路径.recursive:是否递归文件列表,默认为false.excludes:不包括的文件名的正则表... 阅读全文
posted @ 2015-02-02 10:22 勿妄 阅读(712) 评论(0) 推荐(0)
摘要:SolrEntityProcessor从不同的solr实例和内核中引入数据,这个数据是基于指定的或者是过滤的查询来获取到的.如果你需要复制索引,并且小幅度的修改目标索引文件中的数据,那么可以使用SolrEntityProcessor.在某些情况下,solr可能是唯一一个所有数据都可用的地方,Solr... 阅读全文
posted @ 2015-02-02 09:27 勿妄 阅读(834) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2014-11-03 11:27 勿妄 阅读(5) 评论(0) 推荐(0)
摘要:需求:从mysql数据库中读取一个知识记录,从记录表中的字段值中获取一个文件路径,读取xml文件,xml文件中可能包含多个文档内容。建立索引。xml文件样例: 1 测试数据 测试内容 2014-10-13 16:10:33 ... 阅读全文
posted @ 2014-10-14 11:19 勿妄 阅读(389) 评论(0) 推荐(0)
摘要:1.配置文件data-config.xml定义了数据库的基本配置,以及导出数据的映射规则,即导出数据库表中对应哪些字段的值,以及对特定字段的值做如何处理 '${dih.last_index_time}'" transformer="RegexT... 阅读全文
posted @ 2014-10-13 16:00 勿妄 阅读(2173) 评论(0) 推荐(0)
摘要:数据样例:2010-03-19 10:18:06130010543234203guqun09-12月-12liuyin18-6月 -14天翼分享是基于中国电信CDMA网络,为天翼客户提供视频、音频等多媒体信息分享服务的移动互联网产品。多媒体信息可以是客户自己录制的视频、拍摄的照片、制作的动漫或MTV... 阅读全文
posted @ 2014-09-28 16:19 勿妄 阅读(717) 评论(0) 推荐(0)
摘要:1. 2. ... 阅读全文
posted @ 2014-08-28 17:32 勿妄 阅读(846) 评论(0) 推荐(0)
摘要:DIH内存溢出: 在使用DIH时,容易报内存溢出错误。可以通过设置jvm大小来解决。设置方法如下: 在tomcat\bin\startup.bat加入SETJAVA_OPTS=-Xms128m-Xmx1024m配置这里设置的是1024M,根据情况可以适量增大datasourceentity:na... 阅读全文
posted @ 2014-08-27 17:35 勿妄 阅读(629) 评论(0) 推荐(0)