随笔分类 -  搜索引擎(爬虫)

lucene + hadoop 分布式搜索运行框架 Nut 1.0a9
摘要:1、概述不管程序性能有多高,机器处理能力有多强,都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则,以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。Nut是一个Lucene+Hadoop分布式并行计算搜索框架,能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。Nut开发环境:jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongo 阅读全文

posted @ 2012-07-04 09:15 情非得已swust 阅读(291) 评论(0) 推荐(0)

Lucene3.5自学4--建索引相关知识总结
摘要:Lucene简单介绍(该部分摘自网络)Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类,搜索也分为两种:对结构化数据的搜 阅读全文

posted @ 2012-03-04 19:58 情非得已swust 阅读(787) 评论(0) 推荐(0)

Lucene3.5自学系列3-索引的操作-IndexReader
摘要:在Lucene3.5中,对索引操作主要是IndexReader类控制,现在写个实例(基本操作都包括了),但是有些东西在3.5中已经过时了,具体现在不详说---------这几天我发布都是带代码的实例,明白会写个总结,包括3.5中部分的概念,以及过时的方法的替换都将详述等东西。//目前这几篇文章不适合初学者入门看,需要有点概要基础的能看懂,写在这儿只是给自己一个存档,没有专门为大家而写,请原谅,有时间会写个总结性东西,大家参考着并结合API,应该能理解的/好了下面是今天的学习的 1 package cn.swust.lucene; 2 import java.io.File; 3 impo... 阅读全文

posted @ 2012-03-03 20:41 情非得已swust 阅读(1361) 评论(1) 推荐(0)

常用 大数据量、海量数据处理 方法 / 算法总结
摘要:(转:来源无从考证)大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果 阅读全文

posted @ 2012-02-29 18:08 情非得已swust 阅读(770) 评论(0) 推荐(0)

Lucene3.5自学系列1-建立索引
摘要:备注:Field.Store.YES,标志该数据源(字段)被存储,如果为NO当然闪不存储Field.Index.ANALYZED标志该数据源(字段)被索引,如果为NO当然是不索引,注意这里索引闪经过了分词解释器处理后得结果API解释为:Enum Constant SummaryANALYZEDIndex the tokens produced by running the field's value through an Analyzer.ANALYZED_NO_NORMSExpert: Index the tokens produced by running the field 阅读全文

posted @ 2012-02-28 21:23 情非得已swust 阅读(832) 评论(0) 推荐(0)

Web UI方式启动Heritrix的处理流程
摘要:当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){ // Tell handler to start crawl job handler.startCrawler();}再来看看startCrawler()方法的执行:publicclassCrawlJobHandl 阅读全文

posted @ 2011-11-06 20:07 情非得已swust 阅读(545) 评论(0) 推荐(0)

heritrix3 伪装成google进行爬取
摘要:伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封在crawler-beans.cxml 中修改metadata成下面Java代码 1 <!-- CRAWL METADATA: including identification of crawler/operator --> 2 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName"> 3 <property name="o 阅读全文

posted @ 2011-11-06 11:24 情非得已swust 阅读(667) 评论(0) 推荐(0)

搜索引擎爬虫程序一览表
摘要:爬虫程序一览表GoogleBotMediapartnersYahoo! SlurpYahoo! Slurp ChinaYodaoBot爬虫程序ia_archiveriaskiearthwormDigExtIndy Library爬虫程序的屏蔽.htaccessrobots.txt更多爬虫下文中列出了服务器上常见爬虫程序的User Agent(黑体字部分)及其特点。目录[隐藏]1高强度爬虫程序2中等强度爬虫程序3其他搜索引擎的爬虫4RSS扫描器高强度爬虫程序Baiduspider+(+http://www.baidu.com/search/spider.htm")百度爬虫高强度爬虫,有 阅读全文

posted @ 2011-10-24 13:30 情非得已swust 阅读(681) 评论(0) 推荐(0)