随笔分类 - 自然语言处理
自然语言处理学习笔记
摘要:原文: https://blog.csdn.net/u013709332/article/details/99700332
阅读全文
摘要:为什么需要平滑操作 假设有一个预料集 我 喜欢 喝 奶茶 我 喜欢 吃 巧克力 我 喜欢 健身 天啦撸,一起同过窗 要出 第三季 了 这个时候要计算“我喜欢喝咖啡”的概率 假设我们用bi-gram模型来计算,也就是说 P(我喜欢喝咖啡) = P(我)P(喜欢|我)P(喝|喜欢)P(咖啡|喝) = (
阅读全文
摘要:perplexity可以用来评估训练的语言模型的好坏,其实就是下面这个公式 $$ perplexity = 2^{-x}\qquad x表示的是平均的log likelihood,也可以理解为平均的概率啦$$ 下面举一个例子,假设我们有一个测试集如下: 我喜欢喝奶茶 假设我们有一个训练好的bi-gr
阅读全文
摘要:n-gram模型 unigram模型:假设每个单词的出现概率和前面的单词无关,写成表达式就是 : $$P(\omega _{1},\omega _{2},...,\omega _{n}) = P(\omega _{1})P(\omega _{2} )P(\omega _{3})...P(\omega
阅读全文
摘要:Chain Rule 前面讲过的Noisy Channel Model中提到了,P(text)是指的语言模型。那么,语言模型究竟有什么意义,又该怎么求呢? 语言模型其实就是考察text出现的概率。例如,在拼写纠错中,text使我们猜测的正确的单词,那么,这个单词是否常见呢?如果这个单词很常见,就说明
阅读全文
摘要:Noisy Channel Model其实就是指的下面这个公式: $$ P(text|source) = \frac{P(source|text)P(text)}{P(source)} $$ 因为P(source)是一个固定的值,所以又可以写成: $$ P(text|source) \propto
阅读全文
摘要:还记得之前的基于匹配的问答系统吗?系统中有许多的问答对,可能是数百万条,千万条之类的。当用户提出一个问题,系统首先将该问题和问答库中的所有问题求文本相似度,然后选择相似度最高的那个问题,其对应的答案就是系统需要输出的答案。 但是,这样做的问题就是复杂度太高了。对于每个问题,系统需要进行百万次或者千万
阅读全文
摘要:这玩意儿和one-hot就不同了,词向量的表示方法可以称之为分布式表示法首先,向量的维度是自己任意指定的,其次,词向量的值是通过深度学习模型训练出来的。训练的目的也就是使得生成的词向量能够很好地反映出单词的意思,意思相近的单词对应的词向量其相似度也高。如下图所示就是通过训练得到的单词的词向量。其实有
阅读全文
摘要:传统的count-base representation有什么问题呢,可以看下图 观察句式2,其对应的向量中he所在位置的元素值是2,因为he在原句中出现了2次。可是,he在这一句中,并不算是关键词,事实上,denied和lied才是句子2的关键词,但是他们只出现了一次,所以在向量中对应位置的元素值
阅读全文
摘要:欧氏距离:如下图所示,欧氏距离越小,表示句子之间相似度越高 余弦相似度:如下图,余弦相似度越大,代表相似度越高。欧氏距离么有考虑向量的方向这一大要素,所以余弦相似度更贴切一些。
阅读全文
摘要:对于nlp的应用,我们应该先把停用词以及出现频率很低的词汇给过滤掉 在英文里,比如'the','and','their'都可以作为停用词来处理,但是,也要考虑自己的使用场景。例如,在中文中,“好”,“很好”这些词汇在有些应用中可以作为停用词过滤掉。但是如果是情感分析,这些词不能被过滤,也不能当作停用
阅读全文
摘要:一.编辑距离 关于编辑距离,在我的博客https://www.cnblogs.com/loubin/p/13672786.html中已经详细的介绍了。简短的说就是把一个单词修改成另一个单词需要的修改次数。当然,每一次只能增加一个字符,删除一个字符,或者更换一个字符。例如,apple和apply的编辑
阅读全文
摘要:一:分词 常用的分词工具有jieba分词,snowNLP,LTP,HanNLP 1.前向最大匹配算法 现在假设我们有一个词典库{‘这些’,“这些年”,‘年’,‘的’, ‘情’,‘与’,‘爱’,‘终究’,‘是’, ‘错’,‘错付’,‘了’, ‘甄嬛’,。。。} 我们对“这些年的情与爱终究是错付了”利用
阅读全文
摘要:一:分词 常用的分词工具有jieba分词,snowNLP,LTP,HanNLP 1.前向最大匹配算法 现在假设我们有一个词典库{‘这些’,“这些年”,‘年’,‘的’, ‘情’,‘与’,‘爱’,‘终究’,‘是’, ‘错’,‘错付’,‘了’, ‘甄嬛’,。。。} 我们对“这些年的情与爱终究是错付了”利用
阅读全文
摘要:主定理的内容: 主定理主要用于解决如下表示形式的算法的时间复杂度: 其中a≥1,b>1,且a,b都是常数,f(n)是一个渐进正函数 有如下三种情况: 下面是一些练习题,可以没事做做 下面是解答:
阅读全文
摘要:原文出处:https://algorithms.tutorialhorizon.com/dynamic-programming-edit-distance-problem/ 问题:假设我们现在有两个字符串s1和s2,并且给出如下所示的三个编辑操作,写出一个算法,当每次只能使用其中一个编辑操作时,找到
阅读全文
摘要:直接转载大神的:https://www.jianshu.com/p/f4cca5ce055a 数据结构408的最爱
阅读全文

浙公网安备 33010602011771号