随笔分类 -  NLP

摘要:判断文档相似性的传统方法是通过查看两个文档共同出现的词项(terms,不重复的words)有多少,如TF-IDF等。但这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的词项很少甚至没有,但两个文档是相似的。 TF-IDF是Term Frequency - Inverse Document 阅读全文
posted @ 2019-09-02 21:24 山竹小果 阅读(1951) 评论(0) 推荐(0)
摘要:cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点。 在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDes 阅读全文
posted @ 2019-08-27 09:33 山竹小果 阅读(993) 评论(0) 推荐(1)
摘要:(一)马尔可夫随机场(Markov random field,无向图模型) (二)条件随机场(Conditional random field,CRF) (一)马尔可夫随机场 概率图模型(Probabilistic graphical model,PGM)是由图表示的概率分布。概率无向图模型(Pro 阅读全文
posted @ 2019-08-26 21:34 山竹小果 阅读(1243) 评论(0) 推荐(0)
摘要:定义: MEMM是这样的一个概率模型,即在给定的观察状态和前一状态的条件下,出现当前状态的概率。 Ø S表示状态的有限集合 Ø O表示观察序列集合 Ø Pr(s|s­­’,o):观察和状态转移概率矩阵 Ø 初始状态分布:Pr0(s) 注:O表示观察集合,S表示状态集合,M表示模型 最大熵马尔科夫模型 阅读全文
posted @ 2019-08-26 21:27 山竹小果 阅读(2153) 评论(0) 推荐(1)
摘要:Generating Fluent Adversarial Examples for Natural Languages ACL 2019 为自然语言生成流畅的对抗样本 摘要 有效地构建自然语言处理(NLP)任务的对抗性攻击者是一个真正的挑战。首先,由于句子空间是离散的。沿梯度方向做小扰动是困难的。 阅读全文
posted @ 2019-08-14 19:56 山竹小果 阅读(1136) 评论(2) 推荐(0)
摘要:第3章:形式语言与自动机及在NLP中的应用 基本概念: 形式文法、推导、文法的二义性、自动机 文法与自动机之间的关系: 对应与转换 应用举例: 编辑距离 阅读全文
posted @ 2019-07-07 00:27 山竹小果 阅读(235) 评论(0) 推荐(0)
摘要:第二章 数学基础 概率论基础信息论基础: 熵、联合熵、相对熵、困惑度、互信息、噪声信道模型 熵又称为自信息,表示信息X每发出一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么, 正确估计其值的可能性就越小。越不确 阅读全文
posted @ 2019-07-05 15:20 山竹小果 阅读(384) 评论(0) 推荐(0)
摘要:第一章 绪论 问题的提出 基本概念: NLU、 CL、 NLP CL 计算语言学 侧重于: 基础理论和方法 NLU 自然语言理解 :模仿人类 自然语言处理方法 和 实现技术 NLP 自然语言处理 : 对语言文本进行处理和加工 包括对词法 句法 语义和语用等信息的识别 分类 提取 转换和僧成等各种处理 阅读全文
posted @ 2019-07-04 23:06 山竹小果 阅读(659) 评论(0) 推荐(1)
摘要:Outline 1 GRU概述 2 前向传播 3 训练过程 1 GRU概述 GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数: 阅读全文
posted @ 2019-05-29 11:37 山竹小果 阅读(794) 评论(0) 推荐(0)
摘要:在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型能更好地预测样本。 困惑度越小,句子概率越大,语言模型越好。 wiki上列举了三种perplexit 阅读全文
posted @ 2019-05-07 18:50 山竹小果 阅读(4193) 评论(0) 推荐(1)
摘要:贪心搜索(greedy search) 贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。 集束搜索(beam search) 集束搜索可以认为是维特比算法的贪心形式,在维特比所有中由于利用动态规划导致当字典较大时效率低,而集束搜索使用beam size参数来限制在每一步保 阅读全文
posted @ 2019-04-28 18:04 山竹小果 阅读(1008) 评论(0) 推荐(0)
摘要:1、语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式 阅读全文
posted @ 2019-04-28 16:27 山竹小果 阅读(2036) 评论(0) 推荐(0)
摘要:针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision、Recall、F-score(F1-measure)TPR、FPR、TNR、FNR、AUCAccuracy 真实结果 1 0 预测结果 1 TP(真阳性) FP(假阳性) 0 FN(假阴性) TN(真阴性) TP(True 阅读全文
posted @ 2019-04-24 19:22 山竹小果 阅读(10648) 评论(0) 推荐(2)
摘要:论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 背景及问题 背景: 翻译: 翻译模型学习条件分布后,给定一个源句,通过搜索最大条件概率的句子,可以生成相应的翻译。 神经网络翻译:两个组件:第一个: 阅读全文
posted @ 2019-04-15 12:50 山竹小果 阅读(1247) 评论(0) 推荐(0)
摘要:继上一篇:Memory Network 1. 摘要 引入了一个神经网络,在一个可能很大的外部记忆上建立了一个recurrent attention模型。 该体系结构是记忆网络的一种形式,但与该工作中的模型不同,它是端到端培训的,因此在培训期间需要的监督明显更少,这使得它更适合实际环境。 它还可以看作 阅读全文
posted @ 2019-04-01 19:21 山竹小果 阅读(1136) 评论(0) 推荐(0)
摘要:2015年,Facebook首次提出Memory Network。 应用领域:NLP中的对话系统。 1. 研究背景 大多数机器学习模型缺乏一种简单的方法来读写长期记忆。 例如,考虑这样一个任务:被告知一组事实或一个故事,然后必须回答关于这个主题的问题。 循环神经网络(RNN) 经过训练来预测下一个( 阅读全文
posted @ 2019-03-29 14:25 山竹小果 阅读(773) 评论(0) 推荐(0)