随笔分类 - Natrual Language Processing
摘要:向量空间模型VSM VSM是基于bag-of-words的文档匹配算法。首先分词、去除停用词,留下来的词就是特征词,而所有文档留下来的词组成特征词典$V$,此时每个文档都可以表示为一个特征向量$\bold\(,其长度等于特征词典的大小\)|V|\(。在向量任何一个分量\)\bold_i$的取值为:如
阅读全文
摘要:一、语法 正则表达式的语法是独立于编程语言的。 1. 位置字符 ^: 匹配字符串开始位置 $: 匹配字符串结束位置 |: 中|美国匹配"中"和"美国",(中|美)国匹配"中国"和"美国" \A: 只匹配字符串的开始位置 \Z: 只匹配字符串的结尾 \b \B 2. 元字符 \: 隐藏特殊字符的特殊含
阅读全文
摘要:本文分为四个部分, 第一部分 概览:根据近年来的论文,总结学术界在中文分词这个任务上的研究方向和趋势 第二部分 paper解读:列举几个经典的论文,帮助快速了解它们的思路和模型 第三部分 中文分词开源的项目和语料 第四部分 中文分词的评估 概览 从近年来论文的内容和数量来看,中文分词感觉快成为一个已
阅读全文
摘要:词法分析主要有三个任务:分词、词性标注以及命名实体识别,句法分析主要是依存句法分析。本报告主要介绍分词、词性标注和依存句法分析。 一般在做依存句法分析任务时,都需要基于分词和词法分析的结果来做,所以报告内容这么安排也就很正常了。 目前解决这三个任务的方法主要有三种:基于序列标注的方法、基于转移(tr
阅读全文
摘要:本博客翻译自RUDER的博客《ML and NLP Research Highlights of 2020》 本文选取的领域和方法很大程度上受到自身兴趣的影响,所选择的话题偏向于表征学习和迁移学习,也偏向于NLP。我尽量覆盖自己听到看到的所有论文,但是也可能会遗漏很多相关的工作,请读者不要拘束,直接
阅读全文
摘要:award papers Beyond Accuracy: Behavioral Testing of NLP Models with CheckList Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Tra
阅读全文
摘要:COLING 2020发布了今年的录用文章。 机构分类 Thunlp 这次没有关系抽取,一篇用HowNet做消歧,一篇少样本关系分类。 Try to Substitute: An Unsupervised Chinese Word Sense Disambiguation Method Based
阅读全文
摘要:零 序 从三个部分介绍知识图谱(Knowledge Graph, KG),最后做总结: 基础篇:定义、简史、存储和查询; 进阶篇:构建、推理; 应用篇:NLP领域、CV领域; 信息篇:TOP团队、感想 一 基础篇 1.1 定义和简史 三元组是知识的最细粒度的表达形式,结构上一般由主语、谓语、宾语组成
阅读全文
摘要:Word2Vec是Tomas Mikolov于2013年提出的文本向量化方法12,可以在大量文本语料上通过无监督训练学到词的分布式向量表示。和之前的分布式词向量学习模型相比,Word2Vec的模型不仅简单高效(计算量更少),在词相似度和词类比两个评测任务上都取得了更好的成绩,是一个划时代的作品。 T
阅读全文
摘要:任务介绍 句子的依存结构表达了词与词之间的依赖关系,这种关系称依存关系。它是一种二元的非对称关系(binary asymmetric relation),从依存关系的支配者head指向从属者dependent。 依存句法分析旨在将输入的句子转化成依存分析树(或图),依存树中自上而下任意父子结点之间用
阅读全文
摘要:回顾Skip-Gram1 Skip-Gram根据中心词来预测上下文词,其损失函数为: \[ \mathcal L_{SG} = \frac{1}{|V|}\sum_{t=1}^{|V|}\sum_{0 \lt |i| \leq c} \log p(w_{t+i}|w_t) \tag 1 \] 其中
阅读全文
摘要:简介 命名实体识别(Named Entity Recognition, NER)旨在从文本中抽取出命名实体,比如人名、地名、机构名等。它是一个非常重要的基础性任务,可以有效帮助后续的文本语义理解。 NER任务一般有两种类型:flat NER和nested NER。前者就是普通的NER,每个token
阅读全文
摘要:Beyond Accuracy: Behavior Testing of NLP Models with CheckList. Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh. ACL 2020 摘要 在测试集上评估
阅读全文
摘要:注意力的种类有如下四种: 加法注意力, Bahdanau Attention 点乘注意力, Luong Attention 自注意力, Self-Attention 多头点乘注意力, Multi-Head Dot Product Attention(请转至Transformer模型) 1. Bahd
阅读全文
摘要:Text preprocessing is an essential part of NLP tasks. Conversion from Complicated Chinese to Simple Chinese The code below has a dependency on two pyt
阅读全文
摘要:neo4j批量导入数据有两种方法,第一种是使用cypher语法中的LOAD CSV,第二种是使用neo4j自带的工具neo4j-admin import。 LOAD CSV 导入的文件必须是csv文件,位置可以是本地的,或通过http、https、ftp等url指定位置。 neo4j中关于导入文件的
阅读全文

浙公网安备 33010602011771号