摘要:Hnswlib - fast approximate nearest neighbor search Header-only C++ HNSW implementation with python bindings. NEWS: Hnswlib is now 0.5.2. Bugfixes - th
阅读全文
摘要:ES语句构造麻烦,每次都拼,这次备份一下 1. 创建索引 PUT http://sae1002.qihoo.ai:9200/kosmos {"settings":{"index":{"number_of_shards":1,"number_of_replicas":1},"analysis":{"f
阅读全文
摘要:介绍了为什么我们需要转换数据“如果要对数据进行统计检验的话,很多常用的检验方法都会假设数据服从某种特定的分布(比如正态分布)”,也介绍了转换的相关细节。 摘录一些: 要问到底哪种方法更适合呢?这个问题没有确定的答案。尽管有选择转换方式的正规统计方法, 实际应用中还是要结合各种转换方法的特点,反复试验
阅读全文
摘要:https://www.cnblogs.com/johnnyzen/p/11298273.html 前言 本文主要是对TF-IDF和BM25在公式推演、发展沿革方面的演述,全文思路、图片基本来源于此篇公众号推文《搜索中的权重度量利器: TF-IDF和BM25》,侵删。 回到顶部(Back to To
阅读全文
摘要:一般搜索的query比较短,但如果query比较长,如是一段文本,需要搜索相似的文本,这时候一般就需要wand算法,该算法在广告系统中有比较成熟的应该,主要是adsense场景,需要搜索一个页面内容的相似广告。 Wand方法简单来说,一般我们在计算文本相关性的时候,会通过倒排索引的方式进行查询,通过
阅读全文
摘要:https://blog.csdn.net/yizishou/article/details/78342499 首先 每个RoaringBitmap(GitHub链接)中都包含一个RoaringArray,名字叫highLowContainer。highLowContainer存储了RoaringB
阅读全文
摘要:https://baijiahao.baidu.com/s?id=1592653047313321258&wfr=spider&for=pc 随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Kno
阅读全文
摘要:https://blog.csdn.net/bobo_jiang/article/details/78473332 熵是随机变量的一个属性,如同平均值是随机变量一个属性一样 熵是随机变量不确定度的度量 一方面熵越大混乱程度越大,另一方面信息熵越大信息量越大 https://www.zhihu.com
阅读全文
摘要:在数学,尤其是概率论和相关领域中,归一化指数函数,或称Softmax函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多于多分类问题中。 https://baike.baidu.com
阅读全文
摘要:viterbi 算法 https://wulc.me/2017/03/02/%E7%BB%B4%E7%89%B9%E6%AF%94%E7%AE%97%E6%B3%95/ https://en.wikipedia.org/wiki/File:Viterbi_animated_demo.gif http
阅读全文