工作总结 - 随笔分类(第35页) - 星朝

一文搞定数据仓库之拉链表，流水表，全量表，增量表

摘要：1. 全量表：每天的所有的最新状态的数据， 2. 增量表：每天的新增数据，增量数据是上次导出之后的新数据。 3. 拉链表：维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。阅读全文

posted @ 2019-08-28 16:02 星朝阅读(1343) 评论(0) 推荐(0)

数据库模型设计——历史与版本设计

摘要：在企业数据库设计中，经常会遇到一个需求，就是希望把操作之前的数据保留下来，能够看到操作之前是什么数据，操作之后是什么数据。对于这种需求，我们可以使用保留历史数据或者使用版本来实现。为了能够保留历史数据，在版本设计时有以下方案：一、使用版本号版本号是一种常见的版本设计方案，就是在要阅读全文

posted @ 2019-08-28 15:58 星朝阅读(767) 评论(0) 推荐(0)

在Intellij IDEA中使用Debug

摘要：目录一、Debug开篇二、基本用法&快捷键三、变量查看四、计算表达式五、智能步入六、断点条件设置七、多线程调试八、回退断点九、中断Debug十、附：JRebel激活 Debug用来追踪代码的运行流程，通常在程序运行过程中出现异常，启用Debug模式可以分析定位异常发生的位置，以及阅读全文

posted @ 2019-08-28 12:58 星朝阅读(265) 评论(0) 推荐(0)

知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架

摘要：<! flowchart 箭头图标勿删分为两个部分，笔者看到的知识图谱在商业领域的应用，外加看到的一些算法框架与研究机构。文章目录@[toc]一、知识图谱商业应用01 唯品金融大数据02 PlantData知识图谱数据智能平台03 拍拍贷图数据库技术04 CN DBpedia05 OpenKG 阅读全文

posted @ 2019-08-28 11:27 星朝阅读(5510) 评论(0) 推荐(0)

API文档管理工具

摘要：<! flowchart 箭头图标勿删系统庞大之后，前后端分离开发，前端调用后端提供的接口，请求协议一般是 HTTP，数据格式一般是 JSON。后台只负责数据的提供和计算，而完全不处理展现逻辑和样式；前端则负责拿到数据，组织数据并展现的工作。这样结构清晰，关注点分离，前后端会变得相对独立并松耦合阅读全文

posted @ 2019-08-27 11:04 星朝阅读(2420) 评论(1) 推荐(0)

linux 分析进程占用CPU过高

摘要：重点是查看进程的线程中，哪个线程占用cpu过高，然后用gdb附加到进程，调试线程，看是否有死循环或者死锁等问题，步骤如下： 1 先用ps + grep找出该死的进程pid，比如 17062 top H p 1706，(top然后shift+H可以看出某个线程，左上角有提示：thread o 阅读全文

posted @ 2019-08-27 10:00 星朝阅读(4193) 评论(0) 推荐(0)

Linux下CPU占用率高分析方法

摘要：一、可能有线程一直占用CPU资源 1. 先通过 ps 查看进程状态，找出进程的PID（8209）。 2.jstack l 8209 > /usr/local/work/tomcat/8209.stack 导出PID对应的线程信息到文件 3.对导出的线程文件下载本地做分析（可以文本打开） 4. 阅读全文

posted @ 2019-08-27 09:59 星朝阅读(2053) 评论(0) 推荐(0)

ThreadPoolTaskExecutor的配置使用

posted @ 2019-08-27 09:46 星朝阅读(901) 评论(0) 推荐(0)

Java实现敏感词过滤 - DFA算法

摘要：撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> Java实现DFA算法进行敏感词过滤封装工具类如下：使用前需对敏感词库进行初始化： SensitiveWordUtil.init(sensitiveWordSet); package cn.swfilter. 阅读全文

posted @ 2019-08-26 17:55 星朝阅读(5943) 评论(2) 推荐(0)

jieba分词/jieba-analysis（java版）

摘要：简介支持分词模式Search模式，用于对用户查询词分词Index模式，用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能conf 目录有整理的搜狗细胞词库因为性能原因，最新的快照版本去除词性标注，也希望有更好的 Pull Request 可以提供该功能。简单使用获取jieba 阅读全文

posted @ 2019-08-26 17:28 星朝阅读(3006) 评论(0) 推荐(0)

IK分词器原理分析源码解析

摘要：IK分词器在是一款基于词典和规则的中文分词器。本文讲解的IK分词器是独立于elasticsearch、Lucene、solr，可以直接用在java代码中的部分。关于如何开发es分词插件，后续会有文章介绍。 IK分词器的源码：Google Code，直接下载请点击这里。 &nb 阅读全文

posted @ 2019-08-26 16:47 星朝阅读(5054) 评论(0) 推荐(2)

IK的整个分词处理过程

摘要：首先，介绍一下IK的整个分词处理过程： 1. Lucene的分词基类是Analyzer，所以IK提供了Analyzer的一个实现类IKAnalyzer。首先，我们要实例化一个IKAnalyzer，它有一个构造方法接收一个参数isMaxWordLength，这个参数是标识IK是否采用最大词长分词，还是阅读全文

posted @ 2019-08-26 16:45 星朝阅读(2924) 评论(0) 推荐(1)

IK分词器原理与源码分析

摘要：原文：http://3dobe.com/archives/44/ 引言做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点，一个是在数据量比较大的时候，搜索引擎的查询速度快，第二点在于，搜索引擎能做到比数据库更理解用户。第一点好理解，每当数据库的单个表大了，就是阅读全文

posted @ 2019-08-26 16:42 星朝阅读(1421) 评论(0) 推荐(0)

Neo4j中實現自定義中文全文索引

摘要：資料庫檢索效率時，一般首要優化途徑是從索引入手，然後根據需求再考慮更復雜的負載均衡、讀寫分離和分散式水平/垂直分庫/表等手段；索引通過資訊冗餘來提高檢索效率，其以空間換時間並會降低資料寫入的效率，因此對索引欄位的選擇非常重要。Neo4j可對指定Label的Node Create Index，當新增/ 阅读全文

posted @ 2019-08-26 15:09 星朝阅读(465) 评论(0) 推荐(0)

NEO4J中文分词全文索引自动更新解决方案

摘要：<! flowchart 箭头图标勿删 NEO4J中文分词全文索引自动更新解决方案一、样例数据二、英文与中文全文索引差别1、创建NEO4J默认索引2、删除索引3、创建支持中文分词的索引三、APOC自带英文全文索引过程（可自动更新索引）1、添加全文索引2、新增节点与属性3、检索四、自定义中文分词全文阅读全文

posted @ 2019-08-26 15:04 星朝阅读(683) 评论(0) 推荐(0)

【Neo4j】踩坑大会-Neo4J用中文索引

摘要：正在用的Neo4j是当前最新版：3.1.0，各种踩坑。说一下如何在Neo4j 3.1.0中使用中文索引。选用了IKAnalyzer做分词器。 1. 首先参考文章： https://segmentfault.com/a/1190000005665612 里面大致讲了用IKAnalyzer做索引的方式。阅读全文

posted @ 2019-08-26 15:01 星朝阅读(1012) 评论(0) 推荐(0)

Neo4j和Elasticsearch

摘要：Neo4j和Elasticsearch Neo4j和Elasticsearch是一种让人眼前一亮的组合，为什么需要把搜索和图表结合起来呢？它们是如何使用的呢？在无处不在的互联网搜索引擎的推动下，全文搜索占据了主导地位。图形数据库在高度连接的领域上支持事务性和分析性。将两者结合在一起可以增强基于图的阅读全文

posted @ 2019-08-26 14:48 星朝阅读(2963) 评论(0) 推荐(0)

基于NEO4J的高级检索功能

摘要：<! flowchart 箭头图标勿删基于NEO4J的高级检索一、需求二、创建索引1、索引自动更新配置2、执行带有索引自动更新配置的过程三、查询索引1、LUCENE查询语法2、实现高级检索的核心：LUCENE QUERY语句拼接四、总结一、需求基于NEO4J实现类似万方的高级检索功能万方链阅读全文

posted @ 2019-08-26 14:44 星朝阅读(1942) 评论(0) 推荐(0)

Neo4j 3.5发布，在索引方面大幅增强

摘要：Neo4j 3.5版本已正式发布，这也是Neo4j宣布企业版闭源以来发布的第一个版本。这个版本在性能、资源使用率以及安全方面均有增强，我们可以先快速浏览一下这个版本：全文索引基于Index的快速排序 Go语言Driver 内置索引完善，性能有5X提升将Transaction State移到O 阅读全文

posted @ 2019-08-26 14:40 星朝阅读(717) 评论(0) 推荐(0)

Neo4j 全文检索

摘要：全文检索基本概念搜索搜索这个行为是用户与搜索引擎的一次交互过程,用户需要找一些数据,他提供给搜索引擎一些约束条件.搜索引擎通过约束条件抽取一些结果给用户搜索引擎搜索引擎存在的目的是存储,查找和获取数据.Neo4j用的搜索引擎是Lucene 文档在搜索软件中,文档是一等公民.存储,搜索,显示阅读全文

posted @ 2019-08-26 14:38 星朝阅读(938) 评论(0) 推荐(0)

星朝

随笔分类 - 工作总结

公告