随笔分类 -  a:NLP

摘要:原文链接:https://mp.weixin.qq.com/s/iYQkwCs1xz2QIjRkg5nerg Retrieve, Rerank, Read, then Iterate: Answering Open-Domain Questions of Arbitrary Complexity f 阅读全文
posted @ 2021-03-13 11:38 ZH奶酪 阅读(353) 评论(0) 推荐(0) 编辑
摘要:文章地址:https://zhuanlan.zhihu.com/p/94359189 笔记: 模型size=1/7; 推理耗时=1/9; 性能会轻微损失;GLUE下降3个点(BERT-PKD,DistilBERT下降7/8个点); 三个loss:embedding loss(输入,mes),tran 阅读全文
posted @ 2021-03-03 10:33 ZH奶酪 阅读(239) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://d2l.ai/chapter_optimization/lr-scheduler.html 在神经网络中,通常我们主要关注优化算法如何更新权重,而缺少关注更新的幅度,即学习率。适当的调整学习率和优化算法一样重要。可以从这些角度去考虑: 【学习率大小】最直观的就是学习率的粒度 阅读全文
posted @ 2020-10-22 18:50 ZH奶酪 阅读(1237) 评论(0) 推荐(0) 编辑
摘要:小米铁人三项:硬件、新零售、互联网 小爱:知识图谱代表作品 知识图谱请求量 8000万/天? 【joint-model】 【NL2SQL】 【实体链接,BERT+CRF、BERT+Softmax】远程监督构造训练集【TODO】 概念图谱 【上位词判定】 【同义词挖掘】 阅读全文
posted @ 2020-09-26 17:27 ZH奶酪 阅读(614) 评论(0) 推荐(0) 编辑
摘要:多跳,multi-hop boostraping 更新 结合KB的语料增强 Query->查询图 【intent论文】 【动态自适应模型】 阅读全文
posted @ 2020-09-26 16:24 ZH奶酪 阅读(555) 评论(0) 推荐(0) 编辑
摘要:human-in-the-loop,知识图谱链路长 entities、attributes、concepts、relationships Monitor ASR 自动加标点 知识图谱构建 set + pos dep-parser 规则方式(抱团规则) summarization(TF-IDF提取关键 阅读全文
posted @ 2020-09-26 15:36 ZH奶酪 阅读(811) 评论(0) 推荐(0) 编辑
摘要:50亿实体、5500亿事实 事件有更强的知识表达能力 事件抽取比赛,发布了数据集 阅读全文
posted @ 2020-09-26 14:43 ZH奶酪 阅读(1002) 评论(0) 推荐(0) 编辑
摘要:搜狗知识图谱背景 价值清晰、被证明 收益明确 实现包括多个环节 多义项消歧 AI营养师【搜索+图谱+对话】!!!!! 同传 阅读全文
posted @ 2020-09-26 13:35 ZH奶酪 阅读(585) 评论(0) 推荐(0) 编辑
摘要:16亿实体、48亿关系、1000亿SPO。 赋能搜索(搜索5层架构,策略及小模型层) 基于图谱路径召回 知识构建、知识计算、知识应用 问答场景 按答案来源划分:KBQA/(IR)FAQ/(Doc)MRC 方案对比 技术对比 技术全景图(实体约束理解) NLU 实体链接在NLU中的应用 意图识别(bo 阅读全文
posted @ 2020-09-26 12:27 ZH奶酪 阅读(793) 评论(0) 推荐(0) 编辑
摘要:层级化概念网络 如何确定商品所属概念 BLC:Basic Level Concept; c=concept e=entity 如何表征商品关系、复合领域约束 场景体系、时效热点、产品次、概念、品牌、店铺、搭配、商品、实体。。。 用户知识图谱(基本属性、人群属性) 如何基于KG对用户兴趣建模? 基于K 阅读全文
posted @ 2020-09-26 11:33 ZH奶酪 阅读(1968) 评论(0) 推荐(0) 编辑
摘要:达观数据 知识图谱平台 知识图谱构建与应用 知识图谱Schema 结构化数据->知识图谱 非结构化数据->知识图谱 NER NER方法 基于规则的NER 基于浅层模型的NER 基于BiLSTM-CRF的NER(14~18年) 基于BERT的NER 实体关系抽取 关系抽取方法 基于规则的关系抽取 基于 阅读全文
posted @ 2020-09-26 10:29 ZH奶酪 阅读(1369) 评论(0) 推荐(0) 编辑
摘要:文章链接:https://zhuanlan.zhihu.com/p/128066632 (本文大部分内容都摘抄自这篇文章,主要用作个人笔记。) 论文标题:Dice Loss for Data-imbalanced NLP Tasks 论文作者:Xiaofei Sun, Xiaoya Li, Yuxi 阅读全文
posted @ 2020-08-24 15:46 ZH奶酪 阅读(1538) 评论(0) 推荐(0) 编辑
摘要:论文链接:Focal loss for dense object detection 总体上讲,Focal Loss是一个缓解分类问题中类别不平衡、难易样本不均衡的损失函数。首先看一下论文中的这张图: 解释: 横轴是ground truth类别对应的概率(经过sigmoid/softmax处理过的l 阅读全文
posted @ 2020-08-17 18:27 ZH奶酪 阅读(15949) 评论(4) 推荐(2) 编辑
摘要:原文链接:http://nlp.town/blog/sentence-similarity/ 这篇文章对比了几种当时最流行的计算句子相似度的方法。这里是代码,代码超赞! 数据集 对比实验使用了两个测试集,一个STS Benchmark数据集,一个SICK data数据集。 方法 Baseline 表 阅读全文
posted @ 2020-07-09 10:46 ZH奶酪 阅读(387) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/6VuovNdBGSSMq21OHfGe-w 摘要: NER的不同解码方式:CRF/指针网络/Biaffine 直接拿Transformer做NER不合适,可参考TENER 如何将实体词典融入到NER模型中?https://www.ac 阅读全文
posted @ 2020-07-05 11:51 ZH奶酪 阅读(1098) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw 论文链接:https://arxiv.org/abs/1911.00068 带噪学习:https://github.com/subeeshvasu/Awesome-Learning-with 阅读全文
posted @ 2020-07-05 11:25 ZH奶酪 阅读(2123) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://zhuanlan.zhihu.com/p/88938220 文本相似度计算方法有2个关键组件 文本表示模型:将文本表示为计算机可以计算的数值向量,也就是提供特征; 相似度度量方法:基于文本表示向量计算文本之间的相似度; 阅读全文
posted @ 2020-07-01 15:01 ZH奶酪 阅读(565) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/ETnBeIIkusvdFc3a2J0QAA 以BERT为代表的预训练模型为自然语言处理领域带来了新的春天,在人机对话问题上也不例外。检索式多轮对话任务中,最有名的对话数据集就是Ubuntu Dialogue Corpus了,ACL20 阅读全文
posted @ 2020-06-04 10:03 ZH奶酪 阅读(277) 评论(0) 推荐(0) 编辑
摘要:原文链接: https://mp.weixin.qq.com/s/UP1WjoJzDiGTBcMDoYZEUA 很多好文章! 阅读全文
posted @ 2020-05-23 18:37 ZH奶酪 阅读(184) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/rf17rA0tBkD9elqF8nHhaw 本文介绍了NER的难点以及相应的解决方案,人机对话系统中的槽位标注也是NER任务,介绍的一些方法还是很有指导意义的。 难点1: 如何命名“命名实体” 何晗在《自然语言处理入门》一书中的总结如 阅读全文
posted @ 2020-05-23 18:34 ZH奶酪 阅读(760) 评论(0) 推荐(0) 编辑