随笔分类 -  搜索引擎

摘要:1、通过git下载分词器代码。 连接如下:https://gitee.com/hualongdata/hanlp-ext hanlp官网如下:http://hanlp.linrunsoft.com/ 2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可 阅读全文
posted @ 2018-03-02 10:41 爱开卷360 阅读(5150) 评论(1) 推荐(1)
摘要:知识图谱构建 知识图谱由实体、实体的属性描述以及实体和实体之间的关联构成。尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难。在早期,知识图谱构建单纯依赖于人类专家。在这一方法中,知识图谱中的实体、实体属性与实体关联关系完全由专家人工构造,此类知识图谱包括WordNet[2]、CyC[3 阅读全文
posted @ 2018-02-13 16:46 爱开卷360 阅读(2501) 评论(1) 推荐(1)
摘要:实践了下怎么建一个简单的知识图谱,两个版本,一个从 0 开始(start from scratch),一个在 CN-DBpedia 基础上补充,把 MySQL,PostgreSQL,Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道,欢迎讨论。 1. CN-DBpedia 构建流程 知 阅读全文
posted @ 2018-02-13 16:14 爱开卷360 阅读(23289) 评论(1) 推荐(1)
摘要:随着互联网不断的发展,传统的关系型数据库如oracle,mysql已经难以支撑现下大数据量,高并发的场景了。于是,NoSQL横空出世,有像cassandra这样的column-based,像MongoDB这样document-based。今天在这里猎奇的是一个graph-based的数据库,Neo4 阅读全文
posted @ 2018-02-13 14:59 爱开卷360 阅读(2050) 评论(0) 推荐(0)
摘要:近两年来,随着Linking Open Data[1] 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。下面我将从以下几个方面来介绍知识图谱:知识图谱的表示和在搜索中的展现形式,知识图谱的构建和知识图谱在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。 阅读全文
posted @ 2017-07-28 11:17 爱开卷360 阅读(7791) 评论(2) 推荐(1)
摘要:知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 – 互联网金融, 知识图谱可以有哪方面的应用呢? 阅读全文
posted @ 2017-07-28 11:04 爱开卷360 阅读(2642) 评论(1) 推荐(0)
摘要:一、概述 MySQL全文检索是利用查询关键字和查询列内容之间的相关度进行检索,可以利用全文索引来提高匹配的速度。二、语法 MATCH (col1,col2,...) AGAINST (expr [search_modifier]) search_modifier: { IN BOOLEAN MODE... 阅读全文
posted @ 2015-12-24 15:42 爱开卷360 阅读(38116) 评论(5) 推荐(3)
摘要:一、序言 随着TDW的发展,公司在大数据离线分析方面已经具备了行业领先的能力。但是,很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率,这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求... 阅读全文
posted @ 2015-12-02 10:11 爱开卷360 阅读(1870) 评论(0) 推荐(0)
摘要:介绍如果你使用elasticsearch来存储你的日志,本文给你提供一些做法和建议。如果你想从多台主机向elasticsearch汇集日志,你有以下多种选择:Graylog2 安装在一台中心机上,然后它负责往elasticsearch插入日志,而且你可以使用它那个漂亮的搜索界面~Logstash 他有很多特性,包括你能输入什么日志,如何变换过滤,最好输出到哪里。其中就有输出到elasticsearch,包括直接输出和通过RabbitMQ的river方式两种。Apache Flume 这个也可以从海量数据源中获取日志,用”decorators”修改日志,也有各种各样的”sinks”来存储你的输出 阅读全文
posted @ 2013-12-27 18:41 爱开卷360 阅读(1234) 评论(0) 推荐(0)
摘要:1. Sensei介绍Sensei是Linkin公司开发的一个开源分布式实时半结构化数据库,他主要支持以下功能(根据官网翻译):全文检索实时更新faceted searchkey-value查询在高并发更新与查询性能高支持与Hadoop集成初步的调研了以下该项目,发现他其实主要是在全文索引的基础封装了Browse Query Language (BQL,类似SQL)的查询语法,个人感觉该项目的优势主要是在以下几点:支持BQL语法相对与lucene的语法跟容易让人理解,而且对熟悉SQL的开发人员更友好。集群维护简单新加节点只要设置好节点本身的配置,启动后进程会自动加入集群,不需要修改其他服务器的 阅读全文
posted @ 2013-03-22 13:49 爱开卷360 阅读(737) 评论(0) 推荐(1)
摘要:在未出现开源搜索引擎以前, Doug Cutting整了个Lucene, 随后Yonik Seeley写了一个Solr, 在2010年 Shay Banon发布了ElasticSearch, 大概在两年前, 我们迎来了Sensei, 最近他们发布了1.0版本, 下面通过@sematext对LinkedIn的搜索架构师John Wang的一个采访. 来大致了解一下Sensei. Sensei是什么?开源, 灵活, 实时, 分布式数据库, 原生支持搜索, 能操作非结构化文本和结构化数据. 它主要用户处理海量复杂半结构化查询和经常变化的数据结构. 它广泛用于支持LinkedIn.com的搜索功能.为 阅读全文
posted @ 2013-03-22 13:26 爱开卷360 阅读(838) 评论(0) 推荐(1)
摘要:11.Solr1.1Features1.2Pros & Cons1.3References22.Senseidb2.1Features2.2Pros & Cons2.3为何没有直接用Solr?2.4References33.elasticsearch3.1Features3.2Pros & Cons3.3References44. Conclusion5其它参考文献比较的时候,主要关注以下几个方面:ClusteringScalability on Storage and ServiceHigh Availability ConsiderationsFeaturesFle 阅读全文
posted @ 2013-03-22 13:15 爱开卷360 阅读(10898) 评论(2) 推荐(2)
摘要:搭建该平台的目的就是为了运维、研发很方便的进行日志的查询。Kibana一个免费的web壳;Logstash集成各种收集日志插件,还是一个比较优秀的正则切割日志工具;Elasticsearch一个开源的搜索引擎框架(支持群集架构方式)。1 安装需求1.1理论拓扑1.2 安装环境1.2.1 硬件环境192.168.50.62(HP DL 385 G7 、RAM:12G、CPU:AMD 6128、DISK:SAS 146*4)192.168.50.98(HP DL 385 G7 、RAM:12G、CPU:AMD 6128、DISK:SAS 146*6)192.168.10.42 (Xen虚拟机、.. 阅读全文
posted @ 2013-03-15 14:46 爱开卷360 阅读(33177) 评论(3) 推荐(1)
摘要:介绍如果你使用elasticsearch来存储你的日志,本文给你提供一些做法和建议。如果你想从多台主机向elasticsearch汇集日志,你有以下多种选择:Graylog2 安装在一台中心机上,然后它负责往elasticsearch插入日志,而且你可以使用它那个漂亮的搜索界面~Logstash 他有很多特性,包括你能输入什么日志,如何变换过滤,最好输出到哪里。其中就有输出到elasticsearch,包括直接输出和通过RabbitMQ的river方式两种。Apache Flume 这个也可以从海量数据源中获取日志,用”decorators”修改日志,也有各种各样的”sinks”来存储你的输出 阅读全文
posted @ 2013-03-15 12:21 爱开卷360 阅读(26529) 评论(1) 推荐(1)
摘要:Apache Solr 4.0 发布一段时间了,最新的solr修改动作还是很大的,尤其从后台管理界面来看,体验和管理更加方便了。默认使用了multi-core模式,以及支持了对多个collection的管理、监控、优化。从内核来看,Solr 4也带来了很多新东西,如Solr Cloud、Realtime GET、NRT(Near-Real-Time Search)、Master/Slave扩展与ZooKeeper集成、Join查询等。安装SOLR 41. 下载Solr4 http://lucene.apache.org/solr/2. 解压缩,进入example文件夹下面3. 启动Solr.. 阅读全文
posted @ 2012-12-29 17:24 爱开卷360 阅读(3318) 评论(0) 推荐(0)
摘要:2012年10月12日,Lucene 4.0正式发布了(点击这里下载最新版),这个版本因为诸多的新特性和大胆的架构调整一直备受期待。无论是索引结构,索引算法以及整体架构的包容性都发生了翻天覆地的变化。正如大家一直所说的Lucene是一个搜索工具包,而4.0的发布则让Lucene向搜索框架的方向迈出了一大步。 下面我们来逐一解读Lucene 4.0的新特性吧。Lucene 4.0 的关键词: 架构解耦,索引结构可定制化,索引结构透明化,向搜索框架方向发展。Lucene 4.0 正式版亮点功能: 一、通过解码器Codec 机制 Lucene 索引格式与Lucene架构解耦,变成了Plugin... 阅读全文
posted @ 2012-12-29 17:10 爱开卷360 阅读(2275) 评论(0) 推荐(0)
摘要:elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml,第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来记录日志的,所以logging.yml里的设置按普通log4j配置文件来设置就行了。下面主要讲解下elasticsearch.yml这个文件中可配置的东西。cluster.name: elasticsearch配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。node.name: "Fra 阅读全文
posted @ 2012-05-14 16:14 爱开卷360 阅读(1716) 评论(0) 推荐(1)
摘要:介绍下es的几个概念:cluster 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。shards 代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。replicas 代表索引副本,es可以设置多个索引的副本,副本的作用一是提 阅读全文
posted @ 2012-05-14 16:12 爱开卷360 阅读(1260) 评论(0) 推荐(0)
摘要:先到http://www.elasticsearch.org/download/下载最新版的elasticsearch运行包,本文写时最新的是0.19.1,作者是个很勤快的人,es的更新很频繁,bug修复得很快。下载完解开有三个包:bin是运行的脚本,config是设置文件,lib是放依赖的包。如果你要装插件的话就要多新建一个plugins的文件夹,把插件放到这个文件夹中。1.单机环境:单机版的elasticsearch运行很简单,linux下直接bin/elasticsearch就运行了,windows运行bin/elasticsearch.bat。如果是在局域网中运行elasticse.. 阅读全文
posted @ 2012-05-14 16:10 爱开卷360 阅读(6799) 评论(0) 推荐(0)
摘要:思路:先查出该商品有哪些人(IP),然后把这些人(IP)浏览过的商品进行分组统计,把前n个(建议10个以下)的商品列出来。实现例子:新增1个浏览日志表:浏览日志表VisitLog用户IDPlayerID访问模块IDModelID访问时间VisitTime数据库很简单,难度主要在根据数据库内的记录计算出“浏览此商品的顾客还浏览”的列表!以下给出语句并做详细解释。查询出模块的ID,模块的访问次数 :select ModelID ,count(*) as thenum from --from(查询出所有用户id包含在(查询出所有访问过模块abc的用户id)的记录--from后的括号内语句得到的结果. 阅读全文
posted @ 2011-12-14 15:51 爱开卷360 阅读(1944) 评论(3) 推荐(0)