摘要: LUSE: 无监督数据预训练短文本编码模型 1 前言 本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私聊讨论吧。 从本篇博客开始,本人将转化写作模式,由话痨模式转为极简模式,力求三言两语让各位看的明白。 阅读全文
posted @ 2021-07-31 02:20 infgrad 阅读(111) 评论(1) 推荐(1) 编辑
摘要: LM-MLC 一种基于完型填空的多标签分类算法 1 前言 本文主要介绍本人在全球人工智能技术创新大赛【赛道一】设计的一种基于完型填空(模板)的多标签分类算法:LM-MLC,该算法拟合能力很强能感知标签关联性,在多个数据集上测试表明该算法与主流算法无显著性差异,在该比赛数据集上的dev效果很好,但是由 阅读全文
posted @ 2021-06-25 01:20 infgrad 阅读(240) 评论(4) 推荐(1) 编辑
摘要: 一种基于均值不等式的Listwise损失函数 1 前言 1.1 Learning to Rank 简介 Learning to Rank (LTR) , 也被叫做排序学习, 是搜索中的重要技术, 其目的是根据候选文档和查询语句的相关性对候选文档进行排序, 或者选取topk文档. 比如在搜索引擎中, 阅读全文
posted @ 2020-10-06 15:51 infgrad 阅读(320) 评论(0) 推荐(1) 编辑
摘要: 1 前言 知识蒸馏,其目的是为了让小模型学到大模型的知识,通俗说,让student模型的输出接近(拟合)teacher模型的输出。所以知识蒸馏的重点在于拟合二字,即我们要定义一个方法去衡量student模型和teacher模型接近程度,说白了就是损失函数。 为什么我们需要知识蒸馏?因为大模型推理慢难 阅读全文
posted @ 2020-10-04 18:09 infgrad 阅读(1435) 评论(0) 推荐(1) 编辑
摘要: 自然语言处理中的负样本挖掘 (分类与排序任务中如何选择负样本) 1 简介 首先, 介绍下自然与处理中的分类任务和排序任务的基本定义和常见做法, 然后介绍负样本在这两个任务中的意义. 1.1 分类任务 输入为一段文本, 输出为这段文本的分类, 是自然语言处理最为常见,应用最为广泛的任务. 意图识别, 阅读全文
posted @ 2020-09-14 00:50 infgrad 阅读(824) 评论(0) 推荐(1) 编辑
摘要: 写在前面 高性能向量检索库(milvus & faiss)简介 Milvus和Faiss都是高性能向量检索库,可以让你在海量向量库中快速检索到和目标向量最相似的若干个向量,这里相似度量标准可以是内积或者欧式距离等。这里借用milvus官方的话再次说明这两个库的特点: Milvus 是一款开源的、针对 阅读全文
posted @ 2020-08-04 03:20 infgrad 阅读(2007) 评论(1) 推荐(1) 编辑
摘要: Pyinstaller打包通用流程 前言 什么是Pyinstaller Pyinstaller是用于打包python项目的一个工具, 可以将项目代码打包成可执行文件, 在其他机器上使用. 通俗的说, 没打包的时候运行程序的命令是:python3 main.py arg1 arg2 ....那么打包完 阅读全文
posted @ 2020-07-31 02:45 infgrad 阅读(608) 评论(0) 推荐(1) 编辑