11 2020 档案

摘要:1. 统计学习 是计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科; 2. 统计学习的方法: 监督学习,无监督学习,半监督学习和强化学习 3. 监督学习: 学习出一个模型,使模型能够对任意给定的输入,输出一个预测。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程 阅读全文

posted @ 2020-11-24 20:40 不忘初衷,方能致远 阅读(244) 评论(0) 推荐(0)

摘要:ES语句构造麻烦,每次都拼,这次备份一下 1. 创建索引 PUT http://sae1002.qihoo.ai:9200/kosmos {"settings":{"index":{"number_of_shards":1,"number_of_replicas":1},"analysis":{"f 阅读全文

posted @ 2020-11-24 16:25 不忘初衷,方能致远 阅读(127) 评论(0) 推荐(0)

摘要:介绍了为什么我们需要转换数据“如果要对数据进行统计检验的话,很多常用的检验方法都会假设数据服从某种特定的分布(比如正态分布)”,也介绍了转换的相关细节。 摘录一些: 要问到底哪种方法更适合呢?这个问题没有确定的答案。尽管有选择转换方式的正规统计方法, 实际应用中还是要结合各种转换方法的特点,反复试验 阅读全文

posted @ 2020-11-19 17:11 不忘初衷,方能致远 阅读(336) 评论(0) 推荐(0)

摘要:https://www.cnblogs.com/johnnyzen/p/11298273.html 前言 本文主要是对TF-IDF和BM25在公式推演、发展沿革方面的演述,全文思路、图片基本来源于此篇公众号推文《搜索中的权重度量利器: TF-IDF和BM25》,侵删。 回到顶部(Back to To 阅读全文

posted @ 2020-11-19 17:10 不忘初衷,方能致远 阅读(534) 评论(0) 推荐(0)

摘要:一般搜索的query比较短,但如果query比较长,如是一段文本,需要搜索相似的文本,这时候一般就需要wand算法,该算法在广告系统中有比较成熟的应该,主要是adsense场景,需要搜索一个页面内容的相似广告。 Wand方法简单来说,一般我们在计算文本相关性的时候,会通过倒排索引的方式进行查询,通过 阅读全文

posted @ 2020-11-18 18:45 不忘初衷,方能致远 阅读(404) 评论(0) 推荐(0)

导航