随笔分类 - 大数据
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/u011692924/article/details/82422959 目前新功能在
阅读全文
摘要:1. 全量表:每天的所有的最新状态的数据, 2. 增量表:每天的新增数据,增量数据是上次导出之后的新数据。 3. 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。
阅读全文
摘要:在企业数据库设计中,经常会遇到一个需求,就是希望把操作之前的数据保留下来,能够看到操作之前是什么数据,操作之后是什么数据。对于这种需求,我们可以使用保留历史数据或者使用版本来实现。 为了能够保留历史数据,在版本设计时有以下方案: 一、使用版本号 版本号是一种常见的版本设计方案,就是在要
阅读全文
摘要:<! flowchart 箭头图标 勿删 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构。 文章目录@[toc]一、知识图谱商业应用01 唯品金融大数据02 PlantData知识图谱数据智能平台03 拍拍贷图数据库技术04 CN DBpedia05 OpenKG
阅读全文
摘要:简介 支持分词模式Search模式,用于对用户查询词分词Index模式,用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能conf 目录有整理的搜狗细胞词库因为性能原因,最新的快照版本去除词性标注,也希望有更好的 Pull Request 可以提供该功能。 简单使用 获取jieba
阅读全文
摘要:IK分词器在是一款 基于词典和规则 的中文分词器。本文讲解的IK分词器是独立于elasticsearch、Lucene、solr,可以直接用在java代码中的部分。关于如何开发es分词插件,后续会有文章介绍。 IK分词器的源码:Google Code,直接下载请点击这里。 &nb
阅读全文
摘要:正在用的Neo4j是当前最新版:3.1.0,各种踩坑。说一下如何在Neo4j 3.1.0中使用中文索引。选用了IKAnalyzer做分词器。 1. 首先参考文章: https://segmentfault.com/a/1190000005665612 里面大致讲了用IKAnalyzer做索引的方式。
阅读全文
摘要:Neo4j 3.5版本已正式发布,这也是Neo4j宣布企业版闭源以来发布的第一个版本。 这个版本在性能、资源使用率以及安全方面均有增强,我们可以先快速浏览一下这个版本: 全文索引 基于Index的快速排序 Go语言Driver 内置索引完善,性能有5X提升 将Transaction State移到O
阅读全文
摘要:全文检索基本概念 搜索 搜索这个行为是用户与搜索引擎的一次交互过程,用户需要找一些数据,他提供给搜索引擎一些约束条件.搜索引擎通过约束条件抽取一些结果给用户 搜索引擎 搜索引擎存在的目的是存储,查找和获取数据.Neo4j用的搜索引擎是Lucene 文档 在搜索软件中,文档是一等公民.存储,搜索,显示
阅读全文
摘要:1: 本地存储方式 2: 内置查询语言分析 3: 性能分析 4: 图算法支持 本地存储方式 Neo4J neo4j数据库支持最大多少个节点?最大支持多少条边? 目前累积统计它有34.4亿个节点,344亿的关系,和6870亿条属性。 在数据库中,读/写性能跟节点/边的数量有关吗? 这个问题意味着两个不
阅读全文
摘要:Neo4j Versions Most of the examples on this page are written with Neo4j 2.0 in mind, so they skip the START clause, and use clauses like MERGE. The fo
阅读全文
摘要:<! flowchart 箭头图标 勿删 下面是一个介绍基本概念的例子,参考链接Graph database concepts: (1) Nodes(节点) 图谱的基本单位主要是节点和关系,他们都可以包含属性,一个节点就是一行数据,一个关系也是一行数据,里面的属性就是数据库里面的row里面的字段。
阅读全文
摘要:<! flowchart 箭头图标 勿删 NEO4J亿级数据全文索引构建优化一、数据量规模(亿级)二、构建索引的方式三、构建索引发生的异常四、全文索引代码优化1、Java.lang.OutOfMemoryError2、访问数据库时3、优化方案4、优化代码5、执行效率测试 如果使用基于NEO4J的全文
阅读全文
摘要:<! flowchart 箭头图标 勿删 自定义中文全文索引一、中文分词插件1、分词组件的调整2、分词测试二、样例数据准备三、通过中文全文分词组件创建节点索引四、中文分词索引查询五、总结 一、中文分词插件 NEO4J中文全文索引,分词组件使用IKAnalyzer。为了支持高版本LUCENE,IKAn
阅读全文
摘要:数据库检索效率时,一般首要优化途径是从索引入手,然后根据需求再考虑更复杂的负载均衡、读写分离和分布式水平/垂直分库/表等手段;索引通过信息冗余来提高检索效率,其以空间换时间并会降低数据写入的效率;因此对索引字段的选择非常重要。 Neo4j可对指定Label的Node Create Index,当新增
阅读全文
摘要:<! flowchart 箭头图标 勿删 1、添加配置 apoc.export.file.enabled=true apoc.import.file.enabled=true dbms.directories.import=import dbms.security.allow_csv_import_
阅读全文
摘要:<! flowchart 箭头图标 勿删 背景 最近我在尝试存储知识图谱的过程中,接触到了Neo4j图数据库,这里我摘取了一段Neo4j的简介: Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎
阅读全文
摘要:1.安装后启动不起来,解决方案: https://stackoverflow.com/questions/38607283/failed to start neo4j service 2.一直启动不起来,解决方案: 配置文件有问题或者APOC有问题!! 本版问题很重要!!! 一定要下载与
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/zteny/article/details/57366074 <! flowchart 箭头图标 勿删 一、预热 TFIDFSimilari
阅读全文
摘要:1 1 package com.home.utils; 2 3 import java.util.ArrayList; 4 import java.util.List; 5 6 import org.apache.lucene.document.Document; 7 import org.apac
阅读全文

浙公网安备 33010602011771号