搜索 - 随笔分类 - zhanggl

nutch1.9 + solr4.72

摘要：solr.server.url : URL of the SOLR instance (mandatory) solr.commit.size : buffer size when sending to SOLR (default 1000) solr.mapping.file : name of 阅读全文

posted @ 2016-03-01 15:03 zhanggl 阅读(407) 评论(0) 推荐(0)

solr 如何实现精确查询

摘要：第一条和第三条不应该出现的。解决办法阅读全文

posted @ 2015-09-23 16:19 zhanggl 阅读(2803) 评论(0) 推荐(0)

IK 用java 代码实现分词

摘要：需要导入IK 对应的jar 包 IKAnalyzer2012.jar lucene-core-4.10.jarpublic static void main(String[] args) throws IOException { // String text="基于java语言开发的... 阅读全文

posted @ 2015-09-17 17:51 zhanggl 阅读(1958) 评论(0) 推荐(0)

定向爬取指定网页数据，并且过滤

摘要：需要爬取http://toutiao.com/i6192092485658378754/数据问题1：获得页面的所有数据，并且过滤掉不需要的部分，或者指定需要的阅读全文

posted @ 2015-09-12 10:23 zhanggl 阅读(625) 评论(0) 推荐(0)

anjs 分词器初步使用

摘要：由于ik没有歧义分词的功能，打算用anjs 对前端传递过来的数据用anjs进行分词anjs 操作文档官网地址：http://nlpchina.github.io/ansj_seg/刚刚开始由于jar包问题折腾了一会，所以将jar 共享出来jar 包下载地址：http://yunpan.cn/cmuT... 阅读全文

posted @ 2015-09-01 19:32 zhanggl 阅读(1982) 评论(0) 推荐(0)

利用IK分词器，自定义分词规则

摘要：IK分词源码下载地址：https://code.google.com/p/ik-analyzer/downloads/listlucene源码下载地址：http://www.eu.apache.org/dist/lucene/java/下载IK分词源码后，运行出现错误提示：Analyzer cann... 阅读全文

posted @ 2015-08-31 14:45 zhanggl 阅读(8253) 评论(0) 推荐(0)

实现文章重复的删除

摘要：最近项目需要网上抓取了论坛文章，文章是按照作者关联的，一个作者下面有很多文章，不同的作者之间的文章有可能是重复，发现里面有很多文章内容是重复。现在需要通过程序自动识别，如果文章的相识度达到30%就删除时间比较晚更新的那篇。阅读全文

posted @ 2015-08-27 09:29 zhanggl 阅读(186) 评论(0) 推荐(0)

实现solr热词排行榜

摘要：现在有业务场景，要求实现词库里面，最新，最热的词并显示，点击热词后可以进入相关信息的文章或者句子热词的显示频率12小时更新一次。实现思路：实现步骤：阅读全文

posted @ 2015-08-26 10:10 zhanggl 阅读(1391) 评论(1) 推荐(0)

solr 查询同一个core 的关联字段

摘要：实现一个core里面多个字段的关联查询：应用场景是：词，句子，文章希望通过查询实现词，句子，文章里面共同有的关键字private static CloudSolrServer cloudSolrServer; private static String zkHost = "192.... 阅读全文

posted @ 2015-08-25 11:26 zhanggl 阅读(1350) 评论(0) 推荐(0)

用solr DIH 实现mysql 数据定时,增量同步到solr

摘要：基础环境：（二）设置增量导入为定时执行的任务：很多人利用Windows计划任务，或者Linux的Cron来定期访问增量导入的连接来完成定时增量导入的功能，这其实也是可以的，而且应该没什么问题。但是更方便，更加与Solr本身集成度高的是利用其自身的定时增量导入功能。1、下载apache-solr-da... 阅读全文

posted @ 2015-08-20 15:03 zhanggl 阅读(3070) 评论(0) 推荐(0)

Solrj API读取core 索引库数据

摘要：private static String zkHost = "ip:2181,ip:2181,ip:2181"; private static CloudSolrServer solrServer = new CloudSolrServer(zkHost);public static Map so... 阅读全文

posted @ 2015-08-18 17:03 zhanggl 阅读(372) 评论(0) 推荐(0)

solr添加IK分词和自己定义词库

摘要：下载IK分词IK Analyzer 2012FF_hf1.zip下载地址：http://yunpan.cn/cdvATy8899Lrw （提取码：c10d）1、将IKAnalyzer2012FF_u1.jar包上传到服务器，复制到solr-4.10.4/example/solr-webapp/web... 阅读全文

posted @ 2015-08-13 15:26 zhanggl 阅读(3904) 评论(0) 推荐(0)

将Mysq数据导入solr索引库

摘要：本文的基础环境都是在centos 64bit，jdk1.7.79将mysql 的jar 包添加到/home/hadoop/cloudsolr/solr-4.10.4/contrib/dataimporthandler/lib 下修改对应的solrconfig.xml 文件我的core 是collec... 阅读全文

posted @ 2015-08-13 12:04 zhanggl 阅读(3187) 评论(0) 推荐(0)

solr +zookeeper＋Jetty 集群搭建

摘要：solr版本：4.10.4这里使用solr自带的jetty内置服务器zk集群的安装参照上篇文章：在节点1example下上启动solr服务：java -DzkHost=192.168.0.157:2181,192.168.0.158:2181,192.168.0.159:2181 -DnumSha... 阅读全文

posted @ 2015-08-12 23:24 zhanggl 阅读(694) 评论(0) 推荐(0)

solr +zookeeper＋tomcat 集群搭建

摘要：最近需要搭建一个cloudSolr集群，写下记录。基础环境是在centos6.5 64bit3个下载地址：1、下载Solr-4.xhttp://lucene.apache.org/solr/downloads.html2、下载Tomcathttp://tomcat.apache.org/downl... 阅读全文

posted @ 2015-08-07 18:17 zhanggl 阅读(3487) 评论(0) 推荐(0)

solr 启动报错Cannot load analyzer: org.wltea.analyzer.lucene.IKAnalyzer

摘要：schema.xml 配置文件信息：错误提示：HTTP ERROR 500Problem accessing /solr/. Reason: {msg=SolrCore 'collection1' is not available due to init failure: ... 阅读全文

posted @ 2015-07-01 17:22 zhanggl 阅读(10408) 评论(0) 推荐(0)

实时查询系统架构：spark流式处理+HBase+solr/ES查询

摘要：最近要做一个实时查询系统，初步协商后系统的框架 1、流式计算：数据都给spark 计算后放回HBase 2、查询：查询采用HBase+Solr/ES 阅读全文

posted @ 2015-04-23 12:27 zhanggl 阅读(737) 评论(0) 推荐(0)

nutch二次开发环境搭建

摘要：开发环境: ubuntu14.04 + jdk1.7 + eclispe +nutch1.71:解压下好nutch1.7 src 源码(wget http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-src.tar.gz)2:新建一个ja... 阅读全文

posted @ 2014-12-31 15:34 zhanggl 阅读(336) 评论(0) 推荐(0)

nutch2.2.1+mysql抓取数据

摘要：基本环境：linux centos6.5 nutch2.2.1源码包，mysql 5.5 ，elasticsearch1.1.1, jdk1.71、下载地址http://mirror.bjtu.edu.cn/apache/nutch/2.2.1/解压2、修改数据存储方式是mysql 修改nutch... 阅读全文

posted @ 2014-09-12 12:14 zhanggl 阅读(2287) 评论(0) 推荐(0)

(转)ElasticSearch学习

摘要：原文链接，原文比较清晰 http://www.cnblogs.com/MrHiFiy/archive/2012/12/04/2801774.htmlElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使... 阅读全文

posted @ 2014-09-05 16:12 zhanggl 阅读(649) 评论(0) 推荐(0)

随笔分类 - 搜索

公告