共21页: 首页 上一页 13 14 15 16 17 18 19 20 21 下一页 
摘要: 1.schema.xml注意确定文档唯一性的field的indexed属性必须为truesolrconfig.xml 1.注释 <dataDir>${solr.data.dir:./solr/data}</dataDir>,否则索引目录的根是当前目录,即tomcat的bin目录。阅读全文
posted @ 2009-09-16 11:12 searchDM 阅读(263) 评论(0) 编辑
摘要: Data-config为solr的data-import处理器配置数据来源。 依次按照如下树状结构: <dataConfig><dataSource name="tdp" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/dbname" user="root" password="85TIANJIAOyinmi"/> <!--更多dat阅读全文
posted @ 2009-09-16 11:11 searchDM 阅读(290) 评论(0) 编辑
摘要: 最近开发,使用了solr,发现这个东东真是方便。很早就听说了,但是一直觉得配置较难,而且需要学习封装后的组件本来就要费时间,所以知道将lucene弄个熟练后才开始学习solr。 最近写了这样的一段代码, view plaincopy to clipboardprint?·········10········20········30·阅读全文
posted @ 2009-09-16 11:11 searchDM 阅读(555) 评论(0) 编辑
摘要: 开发配置solr的multicore, 在solr的安装包,example下有个multicore,把该文件下的所有文件,包括solr.xml,都拷贝到已经配置好的solr.home目录下。参考(原文地址:http://lianj-lee.javaeye.com/blog/425414): 1》找到solr下载包中的example文件夹,在它的下面有个multicore文件夹,将这个文件夹下面的所有东西copy到 c:"solr-tomcat"solr下面。 注意:有一个 solr.xml(这只是默认文件,当然也可以指定别的文件),如: Xml代码 <?xmlvers阅读全文
posted @ 2009-09-16 11:10 searchDM 阅读(634) 评论(0) 编辑
摘要: 近期在开发时候需要将商品按照某些属性归类,lucene是很难做到了,自己开发效率不能够保证,于是想到使用solr。一直认为solr配置比较复杂,使用也不容易上手,网上中文资料极少,将自己的摸索成果记下来,供大家分享。 solr在schema.xml中配置defaultSearchField,即为默认搜索的域,要想在多个域中搜索,需要将这些域复制到同一个域 中,一般就这些域复制到默认搜索的域,在schema.xml中配置copyFiled,注意被目的域的multiValued属性药设置为true。阅读全文
posted @ 2009-09-16 11:07 searchDM 阅读(560) 评论(0) 编辑
摘要: 为了和以前的程序兼容,在solr建立索引的时候,将id设为gid,结果在建立索引时候出现如下错误: org.apache.solr.common.SolrException: Document [null] missing required field: id .... 原来solr中每个文档都必须有主键,而且默认主键名称为id。 在schema.xml的fields 后有: <uniqueKey>id</uniqueKey>阅读全文
posted @ 2009-09-16 11:06 searchDM 阅读(489) 评论(0) 编辑
摘要: 纠正上篇关于默认主键的问题 solr的data-config中可以为每个entity 配置主键的。 solr提供了可配置的增量索引,在dataimport.properties中保存了上次索引的状态,solr文档说是开始时间,solr更具表格的last—modified 列来判断自从上次索引来,哪些行是改动过的。 详情见:http://wiki.apache.org/solr/DataImportHandler#head-70d3fdda52de9ee4fdb54e1c6f84199f0e1caa76 找到一篇翻译: http://mxsfengg.blog.163.com/blog/s...阅读全文
posted @ 2009-09-16 11:04 searchDM 阅读(781) 评论(0) 编辑
摘要: 聚类就是将数据对象分组成多个类或者簇,划分的原则是在同一个粗中的对象之间具有较高的相似度,而不同簇中的对象差别较大。属于一种无指导的学习方法。 好的聚类算法应该满足以下几个方面: (1) 可伸缩型:无论对小数据量还是大数据量应该都是有效的。 (2) 具有处理不同类型属性的能力。 (3) 能够发现任意形状的聚类。 (4) 输入参数对领域知识的弱依赖性 (5) 对于输入记录顺序不敏感 (6) 能够处理很多维度的数据,而不止是对3维左右的数据有效 (7) 处理噪声数据的能力 (8) 基于约束的距离:既能找到满足特定的约束,又具有良好聚类特性的数据分组 (9) 挖掘出来的信息是可理解的和可用的。 聚.阅读全文
posted @ 2009-09-15 21:07 searchDM 阅读(451) 评论(0) 编辑
摘要: 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索 引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原 因一方面是抓取.阅读全文
posted @ 2009-09-15 20:09 searchDM 阅读(191) 评论(0) 编辑
摘要: Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense: 1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news shoul阅读全文
posted @ 2009-09-15 20:04 searchDM 阅读(1441) 评论(0) 编辑
共21页: 首页 上一页 13 14 15 16 17 18 19 20 21 下一页