06 2020 档案
j
摘要:r 拆解Cluene系列(8)——建立索引的流程 Clucene索引建立剖析 Clucene系列1- 阅读全文
posted @ 2020-06-30 08:26 yeahle 阅读(69) 评论(0) 推荐(0)
TF-IDF的定义及计算
摘要:TF-IDF的定义及计算 最近在做一些NLP的研究,由于也是第一次做这个东西,其实还是发现很多有意思的东西。 相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能,比如snowNLP,jieba等,但是我们还是要做到知其然,知其所以然,所 阅读全文
posted @ 2020-06-28 07:28 yeahle 阅读(429) 评论(0) 推荐(0)
simhash
摘要:simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 原理 simhash值的生成图解如下: 大概花三分钟看懂这个图就差不多怎么实现 阅读全文
posted @ 2020-06-27 15:38 yeahle 阅读(344) 评论(0) 推荐(0)
关于linux进程间的close-on-exec机制
摘要:大部分这种问题都能够解决,在文章的最后,提到了一种特殊情况,就是父子进程中的端口占用情况。父进程监听一个端口后,fork出一个子进程,然后kill掉父进程,再重启父进程,这个时候提示端口占用,用netstat查看,子进程占用了父进程监听的端口。 原理其实很简单,子进程在fork出来的时候,使用了写时 阅读全文
posted @ 2020-06-26 22:27 yeahle 阅读(569) 评论(0) 推荐(0)
libcurl源码安装
摘要:以梦为翅膀, 下载最新版本的libcurl安装包wget https://curl.haxx.se/download/curl-7.55.1.tar.gz ./buildconf // 可以用./configure --help查看其他参数。//--prefix=/usr/local指定安装目录, 阅读全文
posted @ 2020-06-06 07:41 yeahle 阅读(661) 评论(0) 推荐(0)