随笔分类 -  NLP

上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要:对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取,以为下游提供数据支撑。针对时间抽取,发现一个小工具,分享给大家: 开源地址: https://github.com/zhanzecheng/Time_NLP 功能: 用于句子中时间词的抽取和转换 使用示例: res = tn.parse(t 阅读全文
posted @ 2020-05-07 09:27 今夜无风 阅读(1614) 评论(0) 推荐(0)
摘要:一个比较规整的特征映射及相似数据查询模块,留着备用: import gc import tqdm import numpy as np from gensim import corpora, models, similarities from sentence import Sentence fro 阅读全文
posted @ 2020-04-29 20:02 今夜无风 阅读(728) 评论(0) 推荐(0)
摘要:信息来源:智能推荐算法在直播场景中的应用,王洋 作者通过工程实践的角度介绍了直播过程中的用户推荐,几个重点总结一下。 1.数据的隐式反馈和显式反馈 2.显式反馈常用方法 3.隐式反馈常用方法 线上使用: 4.优缺点分析 召回模型是一种粗排思想,特点就是速度快 5. 特征分析 6.模型训练及更新 阅读全文
posted @ 2020-04-29 19:42 今夜无风 阅读(187) 评论(0) 推荐(0)
摘要:""" test """ import os import gensim import pickle import time import numpy as np DIR_PATH = os.path.dirname(os.path.abspath(__file__)) HASHTABLES = o 阅读全文
posted @ 2020-04-28 17:54 今夜无风 阅读(436) 评论(0) 推荐(0)
摘要:检索:解决的最大问题就是如何做到低延迟、快速匹配 采用局部敏感哈希:lsh FaceBook的开源数据包:pysparnn 解决问题:稀疏数据的近邻搜索! 源代码网址:http://www.github.com/facebookresearch/pysparnn 测试源码: """ test """ 阅读全文
posted @ 2020-04-27 15:52 今夜无风 阅读(388) 评论(0) 推荐(0)
摘要:jieba的用户自定义分词字典能够有效提升任务性能,必不可少。 在此之前,一直使用"user_dict.txt"为“txt”后缀的加载方式: jieba.load_userdict("./user_dict.txt") 但是当前为了保存加密需求,必须要对txt数据做序列化操作,起到一定的加密作用。通 阅读全文
posted @ 2020-04-26 15:11 今夜无风 阅读(3078) 评论(0) 推荐(0)
摘要:构件好保存对象时,对json数据格式化存储有助于数据观察和规整 json.dump()的时候设置一下indent参数的值就ok 比如json.dump(json_dict, f, indent=4),indent控制缩进 ensure_ascii=False,写入读取中文形式 阅读全文
posted @ 2020-04-26 14:40 今夜无风 阅读(2517) 评论(0) 推荐(0)
摘要:答案选择技术最实质的应用就是用于检索式问答系统,本专栏本来是以介绍论文为主的,但是经过这段时间的沉淀,个人真心觉得论文看得再多,如果不将论文中的技术用于实际应用中也只是知其一不知其二,因此我尝试着将自己的实践分享出来,个人水平一般,但是希望与大家交流,一起进步! 检索式问答系统最典型的一个例子就是F 阅读全文
posted @ 2020-04-24 15:19 今夜无风 阅读(1302) 评论(1) 推荐(0)
摘要:bert的在推理性能是无可置疑的,将之应用到实际任务中,其实,重点就是要解决如何提高推理速度。albert是对bert的精简和优化,可以将之应用到项目。最近,做了一个测试: 1.数据源:tnews数据集,均是短文本,15个类别,形式如下 2.原始albert模型,~16M,如下 3.微调出ckpt模 阅读全文
posted @ 2020-04-21 11:44 今夜无风 阅读(471) 评论(0) 推荐(0)
摘要:地址:https://github.com/microsoft/nlp-recipes 结合实践列举一些能够工业化应用的成熟工程 阅读全文
posted @ 2020-04-21 11:17 今夜无风 阅读(307) 评论(0) 推荐(0)
摘要:BERT六大瘦身大法 网络剪枝:包括从模型中删除一部分不太重要的权重从而产生稀疏的权重矩阵,或者直接去掉与注意力头相对应的整个矩阵等方法来实现模型的剪枝,还有一些模型通过正则化方法实现剪枝。 低秩分解:即将原来大的权重矩阵分解多个低秩的小矩阵从而减少了运算量。这种方法既可以用于标记嵌入以节省磁盘内存 阅读全文
posted @ 2020-04-16 17:12 今夜无风 阅读(676) 评论(0) 推荐(0)
摘要:从近几次做的工具来看,最终模型命中的数据总是要保存到本地,便于溯源。从便捷性来考虑,python自带的sqlite3是不错的选择。 数据库的使用并不存在难度,常用的sql语句即可实现增删改查。同时,为了业务需要,还要对数据库结果加密。 简单的使用: import sqlite3 def create 阅读全文
posted @ 2020-04-13 09:17 今夜无风 阅读(604) 评论(0) 推荐(0)
摘要:深度学习在广泛应用于目标检测、分类等计算机视觉任务中。但这些应用往往需要很大的计算量和能耗。例如处理一张图片分类,VGG-16需要做 150亿次计算,而YOLOv3需要执行390亿次计算。 这就带来一个问题,如何在低功耗的嵌入式系统或移动设备中部署深度学习呢?一种解决办法是将计算任务转移到云侧,但这 阅读全文
posted @ 2020-03-31 19:54 今夜无风 阅读(334) 评论(0) 推荐(0)
摘要:在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP圈,其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10,性能却依然能与BERT、RoBERTa等模型相媲美。 在前不久,谷歌终于开源了ELECTRA,并发布了预训练模型,这对于缺 阅读全文
posted @ 2020-03-26 11:15 今夜无风 阅读(1000) 评论(0) 推荐(0)
摘要:之前在研究lsh算法,糊里糊涂的,但是该算法的高速性能让我还是得把他搞懂。 借鉴之前阅读的各个大佬博客,从相思能推荐的角度完善了一版代码,花了两天时间才调试出来,看看以后能不能用得上。大家有需求的可以直接使用了,福利满满。嘎嘎嘎 功能:已知一个样本的二进制特征向量,从特征中心中找出特征相似的样本 源 阅读全文
posted @ 2020-03-25 19:21 今夜无风 阅读(1431) 评论(0) 推荐(1)
摘要:传统的基于协同过滤的推荐系统在实时性方面的弊端 面对具有大规模高维稀疏矩阵特征的用户-项目历史评分矩阵,传统的单纯的基于协同过滤的推荐系统存在计算量大,扩展性不强,推荐效率低等问题,严重影响实时推荐系统的实现,因此本文尝试在现有基于协同过滤的推荐系统上,引入局部敏感哈希(Local-Sensitiv 阅读全文
posted @ 2020-03-19 14:39 今夜无风 阅读(966) 评论(0) 推荐(0)
摘要:转载至:https://blog.csdn.net/weixin_43336415/article/details/84898213 阅读全文
posted @ 2020-03-19 14:13 今夜无风 阅读(271) 评论(0) 推荐(0)
摘要:一.题外话 虽然是科普,不过笔者个人认为大道至简,也就是说越简单的东西很可能越值得探讨,或者另外一种说法越简单的东西越不好讲解;其实笔者认为这就是《编程之美》所要传递的——大道至简。 软件构建老师给我推荐的《走出软件作坊》还没看呢。 二.概述 高维数据检索(high-dimentional retr 阅读全文
posted @ 2020-03-19 10:58 今夜无风 阅读(298) 评论(0) 推荐(0)
摘要:学生模型以较少的参数学习老师的分布,在老师的知道下获得性能提升,可以作为模型压缩的一种思路,示例代码如下: """ Function:knowledge distillation """ import math import torch import torch.nn as nn import to 阅读全文
posted @ 2020-02-29 17:23 今夜无风 阅读(1288) 评论(6) 推荐(1)
摘要:softmax(x) 函数:输入一个实数向量并返回一个概率分布 log_softmax(x) 函数:对经过softmax的函数经过一次对数运算 NLLLoss 损失:负对数似然损失,negative log likelihood loss,若𝑥𝑖=[𝑞1,𝑞2,...,𝑞𝑁]xi=[q1 阅读全文
posted @ 2020-02-29 10:19 今夜无风 阅读(3671) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页