大数据 - 随笔分类(第7页) - 星朝

posted @ 2019-08-28 16:04 星朝阅读(1515) 评论(0) 推荐(0)

摘要：1. 全量表：每天的所有的最新状态的数据， 2. 增量表：每天的新增数据，增量数据是上次导出之后的新数据。 3. 拉链表：维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。阅读全文

posted @ 2019-08-28 16:02 星朝阅读(1342) 评论(0) 推荐(0)

数据库模型设计——历史与版本设计

摘要：在企业数据库设计中，经常会遇到一个需求，就是希望把操作之前的数据保留下来，能够看到操作之前是什么数据，操作之后是什么数据。对于这种需求，我们可以使用保留历史数据或者使用版本来实现。为了能够保留历史数据，在版本设计时有以下方案：一、使用版本号版本号是一种常见的版本设计方案，就是在要阅读全文

posted @ 2019-08-28 15:58 星朝阅读(767) 评论(0) 推荐(0)

知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架

摘要：<! flowchart 箭头图标勿删分为两个部分，笔者看到的知识图谱在商业领域的应用，外加看到的一些算法框架与研究机构。文章目录@[toc]一、知识图谱商业应用01 唯品金融大数据02 PlantData知识图谱数据智能平台03 拍拍贷图数据库技术04 CN DBpedia05 OpenKG 阅读全文

posted @ 2019-08-28 11:27 星朝阅读(5505) 评论(0) 推荐(0)

jieba分词/jieba-analysis（java版）

摘要：简介支持分词模式Search模式，用于对用户查询词分词Index模式，用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能conf 目录有整理的搜狗细胞词库因为性能原因，最新的快照版本去除词性标注，也希望有更好的 Pull Request 可以提供该功能。简单使用获取jieba 阅读全文

posted @ 2019-08-26 17:28 星朝阅读(3006) 评论(0) 推荐(0)

IK分词器原理分析源码解析

摘要：IK分词器在是一款基于词典和规则的中文分词器。本文讲解的IK分词器是独立于elasticsearch、Lucene、solr，可以直接用在java代码中的部分。关于如何开发es分词插件，后续会有文章介绍。 IK分词器的源码：Google Code，直接下载请点击这里。 &nb 阅读全文

posted @ 2019-08-26 16:47 星朝阅读(5052) 评论(0) 推荐(2)

【Neo4j】踩坑大会-Neo4J用中文索引

摘要：正在用的Neo4j是当前最新版：3.1.0，各种踩坑。说一下如何在Neo4j 3.1.0中使用中文索引。选用了IKAnalyzer做分词器。 1. 首先参考文章： https://segmentfault.com/a/1190000005665612 里面大致讲了用IKAnalyzer做索引的方式。阅读全文

posted @ 2019-08-26 15:01 星朝阅读(1011) 评论(0) 推荐(0)

Neo4j 3.5发布，在索引方面大幅增强

摘要：Neo4j 3.5版本已正式发布，这也是Neo4j宣布企业版闭源以来发布的第一个版本。这个版本在性能、资源使用率以及安全方面均有增强，我们可以先快速浏览一下这个版本：全文索引基于Index的快速排序 Go语言Driver 内置索引完善，性能有5X提升将Transaction State移到O 阅读全文

posted @ 2019-08-26 14:40 星朝阅读(717) 评论(0) 推荐(0)

Neo4j 全文检索

摘要：全文检索基本概念搜索搜索这个行为是用户与搜索引擎的一次交互过程,用户需要找一些数据,他提供给搜索引擎一些约束条件.搜索引擎通过约束条件抽取一些结果给用户搜索引擎搜索引擎存在的目的是存储,查找和获取数据.Neo4j用的搜索引擎是Lucene 文档在搜索软件中,文档是一等公民.存储,搜索,显示阅读全文

posted @ 2019-08-26 14:38 星朝阅读(938) 评论(0) 推荐(0)

主流图数据库Neo4J、ArangoDB、OrientDB综合对比：架构分析

摘要：1：本地存储方式 2：内置查询语言分析 3：性能分析 4：图算法支持本地存储方式 Neo4J neo4j数据库支持最大多少个节点？最大支持多少条边？目前累积统计它有34.4亿个节点，344亿的关系，和6870亿条属性。在数据库中，读/写性能跟节点/边的数量有关吗？这个问题意味着两个不阅读全文

posted @ 2019-08-26 14:01 星朝阅读(6202) 评论(0) 推荐(0)

Neo4j使用简单例子

摘要：Neo4j Versions Most of the examples on this page are written with Neo4j 2.0 in mind, so they skip the START clause, and use clauses like MERGE. The fo 阅读全文

posted @ 2019-08-26 11:14 星朝阅读(954) 评论(0) 推荐(0)

neo4j 基本概念和Cypher语句总结

摘要：<! flowchart 箭头图标勿删下面是一个介绍基本概念的例子，参考链接Graph database concepts：（1） Nodes（节点）图谱的基本单位主要是节点和关系，他们都可以包含属性，一个节点就是一行数据，一个关系也是一行数据，里面的属性就是数据库里面的row里面的字段。阅读全文

posted @ 2019-08-26 11:07 星朝阅读(1094) 评论(0) 推荐(0)

NEO4J亿级数据全文索引构建优化

摘要：<! flowchart 箭头图标勿删 NEO4J亿级数据全文索引构建优化一、数据量规模（亿级）二、构建索引的方式三、构建索引发生的异常四、全文索引代码优化1、Java.lang.OutOfMemoryError2、访问数据库时3、优化方案4、优化代码5、执行效率测试如果使用基于NEO4J的全文阅读全文

posted @ 2019-08-26 10:46 星朝阅读(1571) 评论(0) 推荐(0)

自定义中文全文索引

摘要：<! flowchart 箭头图标勿删自定义中文全文索引一、中文分词插件1、分词组件的调整2、分词测试二、样例数据准备三、通过中文全文分词组件创建节点索引四、中文分词索引查询五、总结一、中文分词插件 NEO4J中文全文索引，分词组件使用IKAnalyzer。为了支持高版本LUCENE，IKAn 阅读全文

posted @ 2019-08-26 10:37 星朝阅读(748) 评论(0) 推荐(0)

Neo4j中实现自定义中文全文索引

摘要：数据库检索效率时，一般首要优化途径是从索引入手，然后根据需求再考虑更复杂的负载均衡、读写分离和分布式水平/垂直分库/表等手段；索引通过信息冗余来提高检索效率，其以空间换时间并会降低数据写入的效率；因此对索引字段的选择非常重要。 Neo4j可对指定Label的Node Create Index，当新增阅读全文

posted @ 2019-08-26 10:36 星朝阅读(643) 评论(0) 推荐(0)

NEO4J亿级数据导入导出以及数据更新

摘要：<! flowchart 箭头图标勿删 1、添加配置 apoc.export.file.enabled=true apoc.import.file.enabled=true dbms.directories.import=import dbms.security.allow_csv_import_ 阅读全文

posted @ 2019-08-22 17:54 星朝阅读(4663) 评论(0) 推荐(0)

使用neo4j图数据库的import工具导入数据 -方法和注意事项

摘要：<! flowchart 箭头图标勿删背景最近我在尝试存储知识图谱的过程中，接触到了Neo4j图数据库，这里我摘取了一段Neo4j的简介： Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎阅读全文

posted @ 2019-08-22 17:47 星朝阅读(6077) 评论(1) 推荐(0)

neo4j采坑记

摘要：1.安装后启动不起来，解决方案： https://stackoverflow.com/questions/38607283/failed to start neo4j service 2.一直启动不起来,解决方案：配置文件有问题或者APOC有问题！！本版问题很重要！！！一定要下载与阅读全文

posted @ 2019-08-22 17:38 星朝阅读(435) 评论(0) 推荐(0)

Lucene TFIDFSimilarity评分公式详解

posted @ 2019-08-22 16:16 星朝阅读(1589) 评论(0) 推荐(0)

lucene入门-搜索方式

摘要：1 1 package com.home.utils; 2 3 import java.util.ArrayList; 4 import java.util.List; 5 6 import org.apache.lucene.document.Document; 7 import org.apac 阅读全文

posted @ 2019-08-22 15:54 星朝阅读(269) 评论(0) 推荐(0)

星朝

随笔分类 - 大数据

公告