随笔列表第6页 - 大熊猫同学

2018年12月30日

摘要：由字典树想到的字典树双数组树 AC自动机双数组树基于数组实现的字典树基于数组实现的字典树，每个节点都有一个长度为R的数组。空间复杂度高。查找成功的时间复杂度为O(logN) 基于HashMap实现的字典树使用HashMap来保存所有的孩子节点，当孩子节点很多时，Map不可避免地存在Has 阅读全文

posted @ 2018-12-30 22:06 大熊猫同学阅读(340) 评论(0) 推荐(0) 编辑

2018年12月23日

ElasticSearch 启动时加载 Analyzer 源码分析

摘要： ElasticSearch 启动时加载 Analyzer 源码分析本文介绍 ElasticSearch启动时如何创建、加载Analyzer，主要的参考资料是Lucene中关于 "Analyzer官方文档介绍" 、ElasticSearch6.3.2源码中相关类：AnalysisModule、Ana 阅读全文

posted @ 2018-12-23 21:38 大熊猫同学阅读(1278) 评论(0) 推荐(1) 编辑

2018年12月15日

Elasticsearch6.3.2启动过程源码阅读记录

摘要： Elasticsearch6.3.2启动过程源码阅读记录网上有很多关于es的源码分析，觉得自己技术深度还不够，所以这些文章只是看源码过程中的一个笔记，谈不上分析。整个启动过程以类名.方法名，按顺序依次描述如下： 1. 启动入口类，注册JVM关闭钩子用来清理资源。 2. 在es正式启动之前，加载一阅读全文

posted @ 2018-12-15 19:04 大熊猫同学阅读(698) 评论(1) 推荐(0) 编辑

2018年12月13日

Elasticsearch High Level Rest Client 发起请求的过程分析

摘要：本文讨论的是JAVA High Level Rest Client向ElasticSearch6.3.2发送请求( "index操作" 、update、delete……)的一个详细过程的理解，主要涉及到Rest Client如何选择哪一台Elasticsearch服务器发起请求。 maven依赖如下阅读全文

posted @ 2018-12-13 23:06 大熊猫同学阅读(9099) 评论(0) 推荐(0) 编辑

2018年12月4日

关于字符串与包装类的一些常识

摘要： String str1 和 str2 所指向的对象在 "字符串常量池" 中，是同一个对象。 All literal strings and string valued constant expressions are interned，When the intern method is invoke 阅读全文

posted @ 2018-12-04 23:12 大熊猫同学阅读(386) 评论(0) 推荐(0) 编辑

2018年11月30日

Spark 用户自定义函数 Java 示例

摘要： Spark UDF Java 示例在 "这篇文章" 中提到了用Spark做用户昵称文本聚类分析，聚类需要选定K个中心点，然后迭代计算其他样本点到中心点的距离。由于中文文字分词之后(n gram)再加上昵称允许各个特殊字符（数字、字母、各种符号……），如果直接在原来的文本数据上进行聚类，由于文本的“ 阅读全文

posted @ 2018-11-30 22:12 大熊猫同学阅读(8146) 评论(0) 推荐(0) 编辑

2018年11月24日

记一次线程池任务执行异常

摘要：记一次线程池任务执行异常一个名为 fetch 线程池负责从Redis中读取文本数据，将读取到的文本数据提交给另一个线程池 tw ，将 tw 线程池将任务通过HTTP请求的形式上报给过滤服务。如下图所示：一开始采用默认线程池配置方式：然后只提交三个任务，startService() 是个以阅读全文

posted @ 2018-11-24 23:19 大熊猫同学阅读(5608) 评论(0) 推荐(1) 编辑

2018年11月16日

Spark Java API 计算 Levenshtein 距离

摘要： Spark Java API 计算 Levenshtein 距离在 "上一篇文章" 中，完成了Spark开发环境的搭建，最终的目标是对用户昵称信息做聚类分析，找出违规的昵称。聚类分析需要一个距离，用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标，用Spar 阅读全文

posted @ 2018-11-16 21:45 大熊猫同学阅读(1507) 评论(0) 推荐(0) 编辑

2018年11月3日

Spark Java API 之 CountVectorizer

摘要： Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据，而是数值型向量。因此，需要进行转换。而将文本数据转换成数值型的向量有很多种方法，CountVectorizer是其中之一。 A CountVectorizer c 阅读全文

posted @ 2018-11-03 23:12 大熊猫同学阅读(1224) 评论(0) 推荐(0) 编辑

2018年11月2日

spark JAVA 开发环境搭建及远程调试

摘要： spark JAVA 开发环境搭建及远程调试以后要在项目中使用Spark 用户昵称文本做一下聚类分析，找出一些违规的昵称信息。以前折腾过Hadoop，于是看了下Spark官网的文档以及 github 上官方提供的examples，看完了之后决定动手跑一个文本聚类的demo，于是有了下文。 1. 阅读全文

posted @ 2018-11-02 23:49 大熊猫同学阅读(2780) 评论(0) 推荐(0) 编辑

hapjin

公告