上一页 1 2 3 4 5 6 7 8 9 10 ··· 32 下一页
摘要: 由字典树想到的 字典树 双数组树 AC自动机双数组树 基于数组实现的字典树 基于数组实现的字典树,每个节点都有一个长度为R的数组。空间复杂度高。 查找成功的时间复杂度为O(logN) 基于HashMap实现的字典树 使用HashMap来保存所有的孩子节点,当孩子节点很多时,Map不可避免地存在Has 阅读全文
posted @ 2018-12-30 22:06 大熊猫同学 阅读(340) 评论(0) 推荐(0) 编辑
摘要: ElasticSearch 启动时加载 Analyzer 源码分析 本文介绍 ElasticSearch启动时如何创建、加载Analyzer,主要的参考资料是Lucene中关于 "Analyzer官方文档介绍" 、ElasticSearch6.3.2源码中相关类:AnalysisModule、Ana 阅读全文
posted @ 2018-12-23 21:38 大熊猫同学 阅读(1278) 评论(0) 推荐(1) 编辑
摘要: Elasticsearch6.3.2启动过程源码阅读记录 网上有很多关于es的源码分析,觉得自己技术深度还不够,所以这些文章只是看源码过程中的一个笔记,谈不上分析。 整个启动过程以类名.方法名,按顺序依次描述如下: 1. 启动入口类,注册JVM关闭钩子用来清理资源。 2. 在es正式启动之前,加载一 阅读全文
posted @ 2018-12-15 19:04 大熊猫同学 阅读(698) 评论(1) 推荐(0) 编辑
摘要: 本文讨论的是JAVA High Level Rest Client向ElasticSearch6.3.2发送请求( "index操作" 、update、delete……)的一个详细过程的理解,主要涉及到Rest Client如何选择哪一台Elasticsearch服务器发起请求。 maven依赖如下 阅读全文
posted @ 2018-12-13 23:06 大熊猫同学 阅读(9099) 评论(0) 推荐(0) 编辑
摘要: String str1 和 str2 所指向的对象在 "字符串常量池" 中,是同一个对象。 All literal strings and string valued constant expressions are interned,When the intern method is invoke 阅读全文
posted @ 2018-12-04 23:12 大熊猫同学 阅读(386) 评论(0) 推荐(0) 编辑
摘要: Spark UDF Java 示例 在 "这篇文章" 中提到了用Spark做用户昵称文本聚类分析,聚类需要选定K个中心点,然后迭代计算其他样本点到中心点的距离。由于中文文字分词之后(n gram)再加上昵称允许各个特殊字符(数字、字母、各种符号……),如果直接在原来的文本数据上进行聚类,由于文本的“ 阅读全文
posted @ 2018-11-30 22:12 大熊猫同学 阅读(8146) 评论(0) 推荐(0) 编辑
摘要: 记一次线程池任务执行异常 一个名为 fetch 线程池负责从Redis中读取文本数据,将读取到的文本数据提交给另一个线程池 tw ,将 tw 线程池将任务通过HTTP请求的形式上报给过滤服务。如下图所示: 一开始采用默认线程池配置方式: 然后只提交三个任务 ,startService() 是个 以 阅读全文
posted @ 2018-11-24 23:19 大熊猫同学 阅读(5608) 评论(0) 推荐(1) 编辑
摘要: Spark Java API 计算 Levenshtein 距离 在 "上一篇文章" 中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称。聚类分析需要一个距离,用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标,用Spar 阅读全文
posted @ 2018-11-16 21:45 大熊猫同学 阅读(1507) 评论(0) 推荐(0) 编辑
摘要: Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量。因此,需要进行转换。而将文本数据转换成数值型的向量有很多种方法,CountVectorizer是其中之一。 A CountVectorizer c 阅读全文
posted @ 2018-11-03 23:12 大熊猫同学 阅读(1224) 评论(0) 推荐(0) 编辑
摘要: spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息。以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文。 1. 阅读全文
posted @ 2018-11-02 23:49 大熊猫同学 阅读(2780) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 32 下一页