摘要: 为了和以前的程序兼容,在solr建立索引的时候,将id设为gid,结果在建立索引时候出现如下错误: org.apache.solr.common.SolrException: Document [null] missing required field: id .... 原来solr中每个文档都必须有主键,而且默认主键名称为id。 在schema.xml的fields 后有: <uniqueKey>id</uniqueKey> 阅读全文
posted @ 2009-09-16 11:06 searchDM 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 纠正上篇关于默认主键的问题 solr的data-config中可以为每个entity 配置主键的。 solr提供了可配置的增量索引,在dataimport.properties中保存了上次索引的状态,solr文档说是开始时间,solr更具表格的last—modified 列来判断自从上次索引来,哪些行是改动过的。 详情见:http://wiki.apache.org/solr/DataImportHandler#head-70d3fdda52de9ee4fdb54e1c6f84199f0e1caa76 找到一篇翻译: http://mxsfengg.blog.163.com/blog/s... 阅读全文
posted @ 2009-09-16 11:04 searchDM 阅读(917) 评论(0) 推荐(0) 编辑
摘要: 聚类就是将数据对象分组成多个类或者簇,划分的原则是在同一个粗中的对象之间具有较高的相似度,而不同簇中的对象差别较大。属于一种无指导的学习方法。 好的聚类算法应该满足以下几个方面: (1) 可伸缩型:无论对小数据量还是大数据量应该都是有效的。 (2) 具有处理不同类型属性的能力。 (3) 能够发现任意形状的聚类。 (4) 输入参数对领域知识的弱依赖性 (5) 对于输入记录顺序不敏感 (6) 能够处理很多维度的数据,而不止是对3维左右的数据有效 (7) 处理噪声数据的能力 (8) 基于约束的距离:既能找到满足特定的约束,又具有良好聚类特性的数据分组 (9) 挖掘出来的信息是可理解的和可用的。 聚. 阅读全文
posted @ 2009-09-15 21:07 searchDM 阅读(857) 评论(0) 推荐(0) 编辑
摘要: 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索 引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原 因一方面是抓取. 阅读全文
posted @ 2009-09-15 20:09 searchDM 阅读(723) 评论(0) 推荐(0) 编辑
摘要: Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense: 1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news shoul 阅读全文
posted @ 2009-09-15 20:04 searchDM 阅读(2692) 评论(0) 推荐(1) 编辑
摘要: 序列挖掘 与时间序列分析还是有不同的。序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。 序列模式挖掘的一般步骤: (1) 排序阶段:即将原始的数据库转换成序列数据库。 (2) 大项集阶段:中暗处所有频繁的项集(即大项集)组成的集合L。实际上,也同步得到所有大1-序列组成的集合。 (3) 转换阶段:在寻找序列模式的过程中,要不断地检测一个给定的大序列集合是否包含于一个客户序列中。为了使这个过程尽量的快,转换阶段就是将每条记录被所包含的所有最大项目集所取代。如果一条交易不包含任何大项集,在转换完成的序列中它不会被保留。 (4) 序列阶段:利用.. 阅读全文
posted @ 2009-09-15 20:01 searchDM 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 关于Hadoop IPC 我们一起来了解Hadoop IPC,这是一个内进程间通信(Inter-Process Communication)的子系统。Hadoop IPC被用于在一个进程的程序与另一个进程的程序进行通信 Hadoop IPC 1.与SOAP和XML-RPC不同,Hadoop IPC使用java中的DataOutputStream与DataInputStream进行二进制的序列化。 2. 它是一个简洁的,低消耗的RPC机制。 3. 它只支持单播的操作。 为什么Hadoop的IPC实现不使用RMI或者是java.io.Serialization呢? 理... 阅读全文
posted @ 2009-09-06 22:49 searchDM 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求 垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导 阅读全文
posted @ 2009-08-03 13:21 searchDM 阅读(942) 评论(0) 推荐(0) 编辑
摘要: nutch 0.7 plug-ins 详解最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:1、nutch 0.7 发布了;2、nutch 的java源代码包路径改变成了org.apache...3、yahoo也使用了nutch,并做了很多的工作。1 2clustering-carrot2 : 一个搜索结果类聚的代码框架,目前和Egothor等搜索引擎结合的很好; 地址:http://sourceforge.net/projects/carrot2 相关类:org.apache.nutch.clustering.OnlineClusterer Nutch Onl... 阅读全文
posted @ 2009-08-03 13:20 searchDM 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1.介绍NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件的可用性。只要网上的机器序列能... 阅读全文
posted @ 2009-08-03 13:20 searchDM 阅读(534) 评论(0) 推荐(0) 编辑