随笔分类 - 搜索
摘要:solr.server.url : URL of the SOLR instance (mandatory) solr.commit.size : buffer size when sending to SOLR (default 1000) solr.mapping.file : name of
阅读全文
摘要:需要导入IK 对应的jar 包 IKAnalyzer2012.jar lucene-core-4.10.jarpublic static void main(String[] args) throws IOException { // String text="基于java语言开发的...
阅读全文
摘要:需要爬取http://toutiao.com/i6192092485658378754/数据问题1:获得 页面的所有数据,并且过滤掉不需要的部分,或者指定需要的
阅读全文
摘要:由于ik没有歧义分词的功能,打算用anjs 对前端传递过来的数据用anjs进行分词anjs 操作文档官网地址:http://nlpchina.github.io/ansj_seg/刚刚开始由于jar包问题折腾了一会,所以将jar 共享出来jar 包下载地址:http://yunpan.cn/cmuT...
阅读全文
摘要:IK分词源码下载地址:https://code.google.com/p/ik-analyzer/downloads/listlucene源码下载地址:http://www.eu.apache.org/dist/lucene/java/下载IK分词源码后,运行出现错误提示:Analyzer cann...
阅读全文
摘要:最近项目需要网上抓取了论坛文章,文章是按照作者关联的,一个作者下面有很多文章,不同的作者之间的文章有可能是重复,发现里面有很多文章内容是重复。现在需要通过程序自动识别,如果文章 的相识度达到30%就删除时间比较晚更新的那篇。
阅读全文
摘要:现在有业务场景,要求实现词库里面,最新,最热的词并显示,点击热词后可以进入相关信息的文章或者句子热词的显示频率12小时更新一次。实现思路:实现步骤:
阅读全文
摘要:实现一个core里面多个字段的关联查询:应用场景是: 词, 句子,文章希望通过查询实现词,句子,文章里面共同有的关键字private static CloudSolrServer cloudSolrServer; private static String zkHost = "192....
阅读全文
摘要:基础环境:(二)设置增量导入为定时执行的任务:很多人利用Windows计划任务,或者Linux的Cron来定期访问增量导入的连接来完成定时增量导入的功能,这其实也是可以的,而且应该没什么问题。但是更方便,更加与Solr本身集成度高的是利用其自身的定时增量导入功能。1、下载apache-solr-da...
阅读全文
摘要:private static String zkHost = "ip:2181,ip:2181,ip:2181"; private static CloudSolrServer solrServer = new CloudSolrServer(zkHost);public static Map so...
阅读全文
摘要:下载IK分词IK Analyzer 2012FF_hf1.zip下载地址:http://yunpan.cn/cdvATy8899Lrw (提取码:c10d)1、将IKAnalyzer2012FF_u1.jar包上传到服务器,复制到solr-4.10.4/example/solr-webapp/web...
阅读全文
摘要:本文的基础环境都是在centos 64bit,jdk1.7.79将mysql 的jar 包添加到/home/hadoop/cloudsolr/solr-4.10.4/contrib/dataimporthandler/lib 下修改对应的solrconfig.xml 文件我的core 是collec...
阅读全文
摘要:solr版本:4.10.4这里使用solr自带的jetty内置服务器zk集群的 安装参照上篇文章:在节点1example下上启动solr服务:java -DzkHost=192.168.0.157:2181,192.168.0.158:2181,192.168.0.159:2181 -DnumSha...
阅读全文
摘要:最近需要搭建一个cloudSolr集群,写下记录。基础环境是在centos6.5 64bit3个下载地址:1、 下载Solr-4.xhttp://lucene.apache.org/solr/downloads.html2、下载Tomcathttp://tomcat.apache.org/downl...
阅读全文
摘要:schema.xml 配置文件信息: 错误提示:HTTP ERROR 500Problem accessing /solr/. Reason: {msg=SolrCore 'collection1' is not available due to init failure: ...
阅读全文
摘要:最近要做一个实时查询系统,初步协商后系统的框架 1、流式计算:数据都给spark 计算后放回HBase 2、查询:查询采用HBase+Solr/ES
阅读全文
摘要:开发环境: ubuntu14.04 + jdk1.7 + eclispe +nutch1.71:解压下好nutch1.7 src 源码(wget http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-src.tar.gz)2:新建一个ja...
阅读全文
摘要:基本环境:linux centos6.5 nutch2.2.1源码包,mysql 5.5 ,elasticsearch1.1.1, jdk1.71、下载地址http://mirror.bjtu.edu.cn/apache/nutch/2.2.1/解压2、修改数据存储方式是mysql 修改nutch...
阅读全文
摘要:原文链接,原文比较清晰 http://www.cnblogs.com/MrHiFiy/archive/2012/12/04/2801774.htmlElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使...
阅读全文
浙公网安备 33010602011771号