随笔分类 -  NLP

上一页 1 2 3 4 5 6 7 8 ··· 12 下一页
摘要:官方提供的bert是使用tpu集群训练的代码,他可以兼容单核GPU、多核CPU,如果你的机器有多个GPU,直接运行python run_pretraining.py,发现只能利用一个GPU。其实git上已经有人提供了多GPU版本,亲证是可行的,只需要将他的run_pretraining_gpu.py 阅读全文
posted @ 2021-06-22 17:33 今夜无风 阅读(413) 评论(0) 推荐(0)
摘要:一个观点:在所属领域内重新对bert模型做预训练后,对于下游任务性能必定会带来提升。 实验:观察在下游ner任务中的loss变化情况 1)原始bert 全局评估:{'acc': 0.7899749373433584, 'recall': 0.7831704488984595, 'f1': 0.786 阅读全文
posted @ 2021-06-22 14:47 今夜无风 阅读(443) 评论(0) 推荐(0)
摘要:给定一个具体的学习任务,研究人员如何为这个任务确定一个可行的模型结构。给出了各种不同体系结构和不同性能的模型复杂性,研究人员如何从中挑选出最好的模型?这就是模型选择和设计问题。 一般来说,模型的选择和设计是基于两者之间的权衡,预测性能和模型复杂性。 一方面,高精度的预测是学习模型的基本目标。模型应该 阅读全文
posted @ 2021-06-19 10:19 今夜无风 阅读(501) 评论(0) 推荐(0)
摘要:1、相比RNN模型,Transformer语义特征提取能力更强,具备长距离特征捕获能力,且可以并行训练,在机器翻译等NLP任务上效果显著。Open AI团队的GPT[7]使用Transformer替换RNN进行深层单向语言模型预训练,并通过在下游任务上Fine-tuning验证了Pretrain-F 阅读全文
posted @ 2021-06-05 21:24 今夜无风 阅读(780) 评论(0) 推荐(0)
摘要:文本分类  机器学习方法(2012前) 特征+分类器 正则  词典 词典:同义词扩展 数据结构:布隆过滤器 语义反转:程度词,否定词,问句  特征工程 统计表征: TFIDF,BOW,TextRank等 语义表征:LDA,LSI(统计+降维)词向量(后话)  分类器 LR,SVM,GBDT 阅读全文
posted @ 2021-05-31 20:42 今夜无风 阅读(103) 评论(0) 推荐(0)
摘要:功能: 1)微调模型后,下游任务在此模型上继续开发模型,冻结12层。方法:加载微调模型后(不是google原始ckpt),在custom_optimization.py中仅梯度更新需要的variable update_var_list = [] tvars = tf.trainable_variab 阅读全文
posted @ 2021-05-19 20:32 今夜无风 阅读(989) 评论(0) 推荐(0)
摘要:一般情况下,模型不能百分百实现完成功能情况下,需要采用特定trick二次升级,正则是一个重要的手段,之前也有总结,现将最近完成测试代码总结如下,希望能够帮到你解决问题。 import re # 匹配中文 CN_PATTERN = re.compile(u'[\u4e00-\u9fa5]') # 匹配 阅读全文
posted @ 2021-05-19 20:16 今夜无风 阅读(1816) 评论(0) 推荐(0)
摘要:有时我们有查看tensor内部变量的值的变化情况,需要挖一下,现给出解析代码: """ @Date :2021/5/18 @Author :xxx """ import os from tensorflow.python import pywrap_tensorflow base_model_dir 阅读全文
posted @ 2021-05-18 18:30 今夜无风 阅读(705) 评论(0) 推荐(0)
摘要:卷友们好,我是rumor。 NLP最赚钱的落地莫属搜索、广告、推荐三大场景了,今天我们就向钱看,来了解下作为NLP算法工程师,怎样在互联网最主要的三个场景里发光发热,同时蹭得一份业绩。 搜广推这三个场景的架构都差不多,主要就是通过对内容/商品的召回和排序,来优化Query-Doc的匹配结果。可以将这 阅读全文
posted @ 2021-05-14 18:08 今夜无风 阅读(1424) 评论(0) 推荐(0)
摘要:在早先,单向语言模型广泛应用于文本处理;随之bert双向语言模型诞生后,对语义的捕捉能力更强大。应用之一就是对句子打分,通过生成每个字符的先验概率构建评估体系。 参考源码:https://github.com/xu-song/bert-as-language-model 阅读全文
posted @ 2021-05-10 10:22 今夜无风 阅读(377) 评论(0) 推荐(0)
摘要:转换成pb模型,设定多输出 def fun(): """ 保留bert第一层和第二层信息""" OUTPUT_GRAPH = 'pb_model/query_encoder.pb' output_node = ["loss/Softmax", "bert/pooler/dense/Tanh", "M 阅读全文
posted @ 2021-05-08 20:14 今夜无风 阅读(156) 评论(0) 推荐(0)
摘要:需求:顺序加载多个计算图时,会导致第二个计算图后变量 不可用,在程序初始化中解决该问题(一下代码没有做优化,请读者自行修正) class BertEncoder(object): """ model """ def __init__(self, OUTPUT_GRAPH, OUT_TENSOR): 阅读全文
posted @ 2021-04-23 18:29 今夜无风 阅读(200) 评论(0) 推荐(0)
摘要:首先我们看操作手册: 在想要快速计算特定维度上的求和使用该方法,如: 阅读全文
posted @ 2021-04-21 11:13 今夜无风 阅读(165) 评论(0) 推荐(0)
摘要:通常,我们使用bert做文本分类,泛化性好、表现优秀。在进行文本相似性计算任务时,往往是对语料训练词向量,再聚合文本向量embedding数据,计算相似度;但是,word2vec是静态词向量,表征能力有限,此时,可以用已进行特定环境下训练的bert模型,抽取出cls向量作为整个句子的表征向量以供下游 阅读全文
posted @ 2021-04-14 18:25 今夜无风 阅读(2506) 评论(0) 推荐(0)
摘要:侧重点一:点击率(Click Through Rate, 缩写为CTR):为点击条目的个数除以总条目个数。 侧重点二:K位准确率(Precision@K):为在最好的K个推荐的条目中获得的点击数除以K。 侧重点三:归一化折扣累计收益(Normalized Discounted Cumulative 阅读全文
posted @ 2021-04-10 17:34 今夜无风 阅读(362) 评论(0) 推荐(0)
摘要:重要组件:1.query解析;2.目标召回;3.目标排序 解决问题:1.语义检索问题;2.个性化检索问题 如何召回语义上相似但没有明确和query项匹配的物品 针对不同的人相同的搜索词,希望召回一些个性化的物品,较为发散 应用依据:电商领域最常用的召回当属item-based CF,此类方法根据it 阅读全文
posted @ 2021-04-06 18:27 今夜无风 阅读(324) 评论(0) 推荐(0)
摘要:最好的trick就是保证数据精准前提下,如无必要,不要采样。既然数据是模型的上限,就不应该破坏这个上限。 聊聊什么是精准。 很多号称数据清洗的工作,都是工程体系太弱的后果,其实不是算法的问题。比如,没有曝光日志,用了服务端日志,伪曝光做了负样本;没有准确的曝光日志,比如卡片漏出了一个头用户根本没看到 阅读全文
posted @ 2021-03-30 21:16 今夜无风 阅读(2285) 评论(0) 推荐(0)
摘要:目标:二分类 网络:DNN 损失:二元交叉熵 代码: import numpy as np import tensorflow as tf from sklearn.datasets import make_blobs from matplotlib import pyplot as plt fro 阅读全文
posted @ 2021-03-30 18:25 今夜无风 阅读(160) 评论(0) 推荐(0)
摘要:借助sklearn工具,生成类别数据供使用,快速、便捷。 官方说明: make_blobs函数是为聚类产生数据集 产生一个数据集和相应的标签 n_samples:表示数据样本点个数,默认值100 n_features:表示数据的维度,默认值是2 centers:产生数据的中心点,默认值3 clust 阅读全文
posted @ 2021-03-30 18:21 今夜无风 阅读(762) 评论(0) 推荐(0)
摘要:CTR预估是当今推荐策略中的重要任务,结合NLP可以发挥更大的作用,接下来我们一起来学习整个流程,以2019年的paper为例开始吧。 大家可以先刷一遍paper,胸中有大概;随后,github上DeepCTR模块,有大佬写的fgcnn.py可以沿其主线走。Let's go! 1. 数据:crite 阅读全文
posted @ 2021-03-29 22:07 今夜无风 阅读(263) 评论(2) 推荐(0)

上一页 1 2 3 4 5 6 7 8 ··· 12 下一页