Fork me on GitHub
摘要: 一.一篇文档的信息量是否丰富,可以简单利用信息熵来衡量它,计算公式如下,其中p(x)表示word在整篇文档的出现概率(此word出现次数 / 总词数)。 二.简单实现 public class DocEntropy { public static void main(String[] args) { 阅读全文
posted @ 2021-06-03 20:19 石头木 阅读(907) 评论(0) 推荐(0)
摘要: 记得好几年前用es做过标签画像统计,如今再看es时已是很生疏了,再用时已更新到了7.12版本了。以前用TransportClient客户端,现在出了而且是官方推荐用RestHighLevelClient客户端。 这几天用RestHighLevelClient时还是觉得比较方便的。现将一些基本常用功能 阅读全文
posted @ 2021-06-03 20:01 石头木 阅读(585) 评论(0) 推荐(0)