搜索引擎（爬虫） - 随笔分类 - 情非得已swust

lucene + hadoop 分布式搜索运行框架 Nut 1.0a9

摘要：1、概述不管程序性能有多高，机器处理能力有多强，都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则，以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。Nut是一个Lucene+Hadoop分布式并行计算搜索框架，能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。Nut开发环境：jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongo 阅读全文

posted @ 2012-07-04 09:15 情非得已swust 阅读(291) 评论(0) 推荐(0)

Lucene3.5自学4--建索引相关知识总结

摘要：Lucene简单介绍（该部分摘自网络）Lucene是一个高效的，基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢？这要从我们生活中的数据说起。我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类，搜索也分为两种：对结构化数据的搜阅读全文

posted @ 2012-03-04 19:58 情非得已swust 阅读(787) 评论(0) 推荐(0)

Lucene3.5自学系列3-索引的操作-IndexReader

摘要：在Lucene3.5中，对索引操作主要是IndexReader类控制，现在写个实例（基本操作都包括了），但是有些东西在3.5中已经过时了，具体现在不详说---------这几天我发布都是带代码的实例，明白会写个总结，包括3.5中部分的概念，以及过时的方法的替换都将详述等东西。//目前这几篇文章不适合初学者入门看，需要有点概要基础的能看懂，写在这儿只是给自己一个存档，没有专门为大家而写，请原谅，有时间会写个总结性东西，大家参考着并结合API，应该能理解的/好了下面是今天的学习的 1 package cn.swust.lucene; 2 import java.io.File; 3 impo... 阅读全文

posted @ 2012-03-03 20:41 情非得已swust 阅读(1361) 评论(1) 推荐(0)

常用大数据量、海量数据处理方法 / 算法总结

摘要：(转：来源无从考证)大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloom filter适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果阅读全文

posted @ 2012-02-29 18:08 情非得已swust 阅读(770) 评论(0) 推荐(0)

Lucene3.5自学系列1-建立索引

摘要：备注：Field.Store.YES,标志该数据源（字段）被存储，如果为NO当然闪不存储Field.Index.ANALYZED标志该数据源（字段）被索引，如果为NO当然是不索引，注意这里索引闪经过了分词解释器处理后得结果API解释为：Enum Constant SummaryANALYZEDIndex the tokens produced by running the field's value through an Analyzer.ANALYZED_NO_NORMSExpert: Index the tokens produced by running the field 阅读全文

posted @ 2012-02-28 21:23 情非得已swust 阅读(832) 评论(0) 推荐(0)

Web UI方式启动Heritrix的处理流程

摘要：当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){ // Tell handler to start crawl job handler.startCrawler();}再来看看startCrawler()方法的执行:publicclassCrawlJobHandl 阅读全文

posted @ 2011-11-06 20:07 情非得已swust 阅读(545) 评论(0) 推荐(0)

heritrix3 伪装成google进行爬取

摘要：伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封在crawler-beans.cxml 中修改metadata成下面Java代码 1  2 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName"> 3 <property name="o 阅读全文

posted @ 2011-11-06 11:24 情非得已swust 阅读(667) 评论(0) 推荐(0)

搜索引擎爬虫程序一览表

摘要：爬虫程序一览表GoogleBotMediapartnersYahoo! SlurpYahoo! Slurp ChinaYodaoBot爬虫程序ia_archiveriaskiearthwormDigExtIndy Library爬虫程序的屏蔽.htaccessrobots.txt更多爬虫下文中列出了服务器上常见爬虫程序的User Agent（黑体字部分）及其特点。目录[隐藏]1高强度爬虫程序2中等强度爬虫程序3其他搜索引擎的爬虫4RSS扫描器高强度爬虫程序Baiduspider+(+http://www.baidu.com/search/spider.htm")百度爬虫高强度爬虫，有阅读全文

posted @ 2011-10-24 13:30 情非得已swust 阅读(681) 评论(0) 推荐(0)

情非得已swust

随笔分类 - 搜索引擎（爬虫）