a:NLP - 随笔分类 - ZH奶酪

《万字长文：浅谈多任务学习》侧重NLP和推荐系统，MLT

摘要：原文链接：https://mp.weixin.qq.com/s/iYQkwCs1xz2QIjRkg5nerg Retrieve, Rerank, Read, then Iterate: Answering Open-Domain Questions of Arbitrary Complexity f 阅读全文

posted @ 2021-03-13 11:38 ZH奶酪阅读(353) 评论(0) 推荐(0) 编辑

《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程

摘要：文章地址：https://zhuanlan.zhihu.com/p/94359189 笔记：模型size=1/7；推理耗时=1/9；性能会轻微损失；GLUE下降3个点（BERT-PKD，DistilBERT下降7/8个点）；三个loss：embedding loss（输入，mes），tran 阅读全文

posted @ 2021-03-03 10:33 ZH奶酪阅读(239) 评论(0) 推荐(0) 编辑

学习率调度

摘要：原文链接：https://d2l.ai/chapter_optimization/lr-scheduler.html 在神经网络中，通常我们主要关注优化算法如何更新权重，而缺少关注更新的幅度，即学习率。适当的调整学习率和优化算法一样重要。可以从这些角度去考虑：【学习率大小】最直观的就是学习率的粒度阅读全文

posted @ 2020-10-22 18:50 ZH奶酪阅读(1237) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（2）小米，知识图谱应用

摘要：小米铁人三项：硬件、新零售、互联网小爱：知识图谱代表作品知识图谱请求量 8000万/天？【joint-model】【NL2SQL】【实体链接，BERT+CRF、BERT+Softmax】远程监督构造训练集【TODO】概念图谱【上位词判定】【同义词挖掘】阅读全文

posted @ 2020-09-26 17:27 ZH奶酪阅读(614) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（2）阿里云小蜜，知识图谱技术与落地

摘要：多跳，multi-hop boostraping 更新结合KB的语料增强 Query->查询图【intent论文】【动态自适应模型】阅读全文

posted @ 2020-09-26 16:24 ZH奶酪阅读(555) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（2）明略科技，语音图谱系统与实践

摘要：human-in-the-loop，知识图谱链路长 entities、attributes、concepts、relationships Monitor ASR 自动加标点知识图谱构建 set + pos dep-parser 规则方式（抱团规则） summarization（TF-IDF提取关键阅读全文

posted @ 2020-09-26 15:36 ZH奶酪阅读(811) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（2）百度，事件图谱

摘要：50亿实体、5500亿事实事件有更强的知识表达能力事件抽取比赛，发布了数据集阅读全文

posted @ 2020-09-26 14:43 ZH奶酪阅读(1002) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（1）搜狗，知识图谱应用

摘要：搜狗知识图谱背景价值清晰、被证明收益明确实现包括多个环节多义项消歧 AI营养师【搜索+图谱+对话】！！！！！同传阅读全文

posted @ 2020-09-26 13:35 ZH奶酪阅读(585) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（1）美团，知识图谱问答实践

摘要：16亿实体、48亿关系、1000亿SPO。赋能搜索（搜索5层架构，策略及小模型层）基于图谱路径召回知识构建、知识计算、知识应用问答场景按答案来源划分：KBQA/（IR）FAQ/（Doc）MRC 方案对比技术对比技术全景图（实体约束理解） NLU 实体链接在NLU中的应用意图识别（bo 阅读全文

posted @ 2020-09-26 12:27 ZH奶酪阅读(793) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（1）京东，知识图谱在电商实践

摘要：层级化概念网络如何确定商品所属概念 BLC：Basic Level Concept； c=concept e=entity 如何表征商品关系、复合领域约束场景体系、时效热点、产品次、概念、品牌、店铺、搭配、商品、实体。。。用户知识图谱（基本属性、人群属性）如何基于KG对用户兴趣建模？基于K 阅读全文

posted @ 2020-09-26 11:33 ZH奶酪阅读(1968) 评论(0) 推荐(0) 编辑

20200926 DataFunTalk：知识图谱专场（1）达观数据，知识图谱平台、构建、应用

摘要：达观数据知识图谱平台知识图谱构建与应用知识图谱Schema 结构化数据->知识图谱非结构化数据->知识图谱 NER NER方法基于规则的NER 基于浅层模型的NER 基于BiLSTM-CRF的NER（14～18年）基于BERT的NER 实体关系抽取关系抽取方法基于规则的关系抽取基于阅读全文

posted @ 2020-09-26 10:29 ZH奶酪阅读(1369) 评论(0) 推荐(0) 编辑

ACL2020文章，用Dice Loss处理NLP任务的数据不均衡问题，Tensorflow实现

摘要：文章链接：https://zhuanlan.zhihu.com/p/128066632 （本文大部分内容都摘抄自这篇文章，主要用作个人笔记。）论文标题：Dice Loss for Data-imbalanced NLP Tasks 论文作者：Xiaofei Sun, Xiaoya Li, Yuxi 阅读全文

posted @ 2020-08-24 15:46 ZH奶酪阅读(1538) 评论(0) 推荐(0) 编辑

图解Focal Loss以及Tensorflow实现（二分类、多分类）

摘要：论文链接：Focal loss for dense object detection 总体上讲，Focal Loss是一个缓解分类问题中类别不平衡、难易样本不均衡的损失函数。首先看一下论文中的这张图：解释：横轴是ground truth类别对应的概率（经过sigmoid/softmax处理过的l 阅读全文

posted @ 2020-08-17 18:27 ZH奶酪阅读(15949) 评论(4) 推荐(2) 编辑

《Comparing Sentence Similarity Methods》Yves Peirsman; May 2, 2018

摘要：原文链接：http://nlp.town/blog/sentence-similarity/ 这篇文章对比了几种当时最流行的计算句子相似度的方法。这里是代码，代码超赞！数据集对比实验使用了两个测试集，一个STS Benchmark数据集，一个SICK data数据集。方法 Baseline 表阅读全文

posted @ 2020-07-09 10:46 ZH奶酪阅读(387) 评论(0) 推荐(0) 编辑

《工业界求解NER问题的12条黄金法则》作者：JayLou娄杰

摘要：原文链接：https://mp.weixin.qq.com/s/6VuovNdBGSSMq21OHfGe-w 摘要： NER的不同解码方式：CRF/指针网络/Biaffine 直接拿Transformer做NER不合适，可参考TENER 如何将实体词典融入到NER模型中？https://www.ac 阅读全文

posted @ 2020-07-05 11:51 ZH奶酪阅读(1098) 评论(0) 推荐(0) 编辑

《别让数据坑了你！用置信学习找出错误标注》作者：JayLou娄杰。置信学习/带噪学习

摘要：原文链接：https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw 论文链接：https://arxiv.org/abs/1911.00068 带噪学习：https://github.com/subeeshvasu/Awesome-Learning-with 阅读全文

posted @ 2020-07-05 11:25 ZH奶酪阅读(2123) 评论(0) 推荐(0) 编辑

《常见文本相似度计算方法简介》，20200701

摘要：原文链接：https://zhuanlan.zhihu.com/p/88938220 文本相似度计算方法有2个关键组件文本表示模型：将文本表示为计算机可以计算的数值向量，也就是提供特征；相似度度量方法：基于文本表示向量计算文本之间的相似度；阅读全文

posted @ 2020-07-01 15:01 ZH奶酪阅读(565) 评论(0) 推荐(0) 编辑

《ACL2020 | 对话数据集Mutual：论对话逻辑，BERT还差的很远》，2020-06，作者rumor酱

摘要：原文链接：https://mp.weixin.qq.com/s/ETnBeIIkusvdFc3a2J0QAA 以BERT为代表的预训练模型为自然语言处理领域带来了新的春天，在人机对话问题上也不例外。检索式多轮对话任务中，最有名的对话数据集就是Ubuntu Dialogue Corpus了，ACL20 阅读全文

posted @ 2020-06-04 10:03 ZH奶酪阅读(277) 评论(0) 推荐(0) 编辑

《AINLP年度阅读收藏清单》，2020-01-01，52nlp

摘要：原文链接： https://mp.weixin.qq.com/s/UP1WjoJzDiGTBcMDoYZEUA 很多好文章！阅读全文

posted @ 2020-05-23 18:37 ZH奶酪阅读(184) 评论(0) 推荐(0) 编辑

《命名实体识别 NER 论文综述：那些年，我们一起追过的却仍未知道的花名（一）》，2020-05，龚俊民(昵称: 除夕)

摘要：原文链接：https://mp.weixin.qq.com/s/rf17rA0tBkD9elqF8nHhaw 本文介绍了NER的难点以及相应的解决方案，人机对话系统中的槽位标注也是NER任务，介绍的一些方法还是很有指导意义的。难点1: 如何命名“命名实体” 何晗在《自然语言处理入门》一书中的总结如阅读全文

posted @ 2020-05-23 18:34 ZH奶酪阅读(760) 评论(0) 推荐(0) 编辑

ZH奶酪(张贺)

人生犹如“迷宫”，每个人都在其中寻找各自的“奶酪”——稳定的工作、身心的健康、和谐的人际关系、甜蜜美满的爱情，或是令人充满想象的财富……

随笔分类 - a:NLP