随笔分类 -  大数据

摘要:Apache Solr入门教程(初学者之旅) 目录(?)[+] Apache Solr入门教程初学者之旅 为什么选择Apache Solr安装Apache Solr配置Apache Solr1建立核心core2修改Schemaxml文件索引数据访问索引的文档1按名称搜索2首字母搜索3搜索使 阅读全文
posted @ 2017-11-29 11:39 星朝 阅读(459) 评论(0) 推荐(0)
摘要:Solr教程 <! This adds a workflow map, to a page See http://idratherbewriting.com/documentation theme jekyll/mydoc_workflow_maps.html Leaving it here com 阅读全文
posted @ 2017-11-28 18:26 星朝 阅读(1075) 评论(0) 推荐(0)
摘要:solr启动时报错org.apache.solr.common.SolrException: undefined field text的解决办法 原创 2015年08月21日 20:47:40 标签: <! [startarticletags] <! [endarticletags] 4204 <! 阅读全文
posted @ 2017-11-28 17:31 星朝 阅读(5044) 评论(0) 推荐(0)
摘要:本文已挪至  http://www.zhoujingen.cn/blog/8535.html   明年工作主要和搜索有关,在自己学习过程中分享让更多人受益是我一贯的做法,所以我会把对Solr的学习在这里与大家分享一下,如果你也对搜索也感兴趣,也是新手,那么就和我从头开始吧。 今天 阅读全文
posted @ 2017-11-28 15:58 星朝 阅读(248) 评论(0) 推荐(0)
摘要:2.Lucene3.6.2包介绍,第一个Lucene案例介绍,查看索引信息的工具lukeall介绍,Luke查看的索引库内容,索引查找过程 2014 12 07 23:39 2623人阅读 评论(0) 收藏 举报 .embody{ padding:10px 10px 10px; margin:0 2 阅读全文
posted @ 2017-11-28 15:32 星朝 阅读(386) 评论(0) 推荐(0)
摘要:  后期补充: 为什么要用solr服务,为什么要用luncence? 问题提出:当我们访问购物网站的时候,我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容,这是怎么做到呢?这些随意的数据不可能是根据数据库的字段查询的,那是怎么查询出来的呢,为什么千奇百怪的关键字都可以查询出来 阅读全文
posted @ 2017-11-28 14:52 星朝 阅读(1711) 评论(0) 推荐(0)
摘要:分步指南 solr服务与tomcat整合 solr使用配置步骤 solr使用 推荐分词工具   相关的文章    一.Solr服务与tomcat整合      1、solr相关版本下载路径:http://archive. 阅读全文
posted @ 2017-11-28 14:39 星朝 阅读(1205) 评论(0) 推荐(0)
摘要:  本文转自 http://chuanliang2007.spaces.live.com/blog/cns!E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0   由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能 阅读全文
posted @ 2017-11-28 14:39 星朝 阅读(698) 评论(0) 推荐(0)
摘要:solr在windows下的安装及配置 首先,solr是基于Java开发的,所以使用的话需要先进行java环境的配置,在Java环境配置好之后就可以去http://www.apache.org/dyn/closer.lua/lucene/solr/5.4.1这里下载solr了,我是在Windows下 阅读全文
posted @ 2017-11-28 14:10 星朝 阅读(1363) 评论(0) 推荐(0)
摘要:1: 在官网下载对应源码 http://www.fayea.com/apache mirror/lucene/solr/4.1.0/   选择源码文件,如图所示:           &nb 阅读全文
posted @ 2017-11-28 13:46 星朝 阅读(657) 评论(0) 推荐(0)
摘要:1.下载并安装eclipse2.https://github.com/winghc/hadoop2x eclipse plugin3.下载插件到eclipse的插件目录      4.配置hadoop安装目录 打开eclipsewindow >prefe 阅读全文
posted @ 2017-11-28 12:05 星朝 阅读(339) 评论(0) 推荐(0)
摘要:一、安装Eclipse     下载Eclipse,解压安装,例如安装到/usr/local,即/usr/local/eclipse     4.3.1版本下载地址:http://pan.baidu.com/s/1eQk 阅读全文
posted @ 2017-11-28 11:50 星朝 阅读(342) 评论(0) 推荐(0)
摘要:Solr4.10.2集成Nutch1.9与自带UI界面使用 一、Solr4.10.2与Nutch1.9集成   环境:Solr4.10.2已经配置在Tomcat上 Solr的Tomcat配置详见Solr4.10.2的Tomcat配置   将NUTCH_DIR/conf/schem 阅读全文
posted @ 2017-11-28 10:34 星朝 阅读(617) 评论(0) 推荐(0)
摘要:       最近,因为未来工作的需要,我尝试安装部署了分布式爬虫系统Nutch,并配置了伪分布式的Hadoop来存储爬取的网页结果,用solr来对爬下来的网页进行搜索。我主要通过参考网上的相关资料进行安装部署的。但网上的资料很多比较乱,我也走了一些 阅读全文
posted @ 2017-11-28 10:32 星朝 阅读(1253) 评论(0) 推荐(0)
摘要:1. 全文检索基础 1.1. 我们身边的搜索功能 1. Windows系统中的有搜索功能:打开“我的电脑”,按“F3”就可以使用查找的功能,查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。 2. Eclipse中的帮助子系统:点击HelpàHelp& 阅读全文
posted @ 2017-11-28 09:57 星朝 阅读(1733) 评论(2) 推荐(0)
摘要:Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin 阅读全文
posted @ 2017-11-27 16:30 星朝 阅读(461) 评论(0) 推荐(0)
摘要:首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包 这里假定nutch的根目录为:${APACHE_NUTCH_HOME} 配置${APACHE_NUTCH_HOME}/ivy/ivy.xml,确保Nutch使用MySQL作为数据存储 将 [ht 阅读全文
posted @ 2017-11-27 15:25 星朝 阅读(484) 评论(0) 推荐(0)
摘要:nutch的一些基础整理 原创 2015年03月22日 18:18:01 标签: <! [startarticletags] nutch / <! [endarticletags] 240 <! <li <button class="btn noborder but comment topicon" 阅读全文
posted @ 2017-11-27 14:43 星朝 阅读(279) 评论(0) 推荐(0)
摘要:Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装A 阅读全文
posted @ 2017-11-27 14:32 星朝 阅读(1187) 评论(0) 推荐(0)
摘要:版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行,并标明其所在文件名、行号。 1. 定义 schema schema直接写在源代码里面: [cpp] view plain copy print? 阅读全文
posted @ 2017-11-27 14:12 星朝 阅读(344) 评论(0) 推荐(0)