会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
地球上最后一个直男
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
11
下一页
2020年9月23日
自然语言处理4-2:语言模型之Chain Rule和Markov Assumption
摘要: Chain Rule 前面讲过的Noisy Channel Model中提到了,P(text)是指的语言模型。那么,语言模型究竟有什么意义,又该怎么求呢? 语言模型其实就是考察text出现的概率。例如,在拼写纠错中,text使我们猜测的正确的单词,那么,这个单词是否常见呢?如果这个单词很常见,就说明
阅读全文
posted @ 2020-09-23 17:20 地球上最后一个直男
阅读(469)
评论(0)
推荐(0)
2020年9月21日
自然语言处理4-1:语言模型之Noisy Channel Model
摘要: Noisy Channel Model其实就是指的下面这个公式: $$ P(text|source) = \frac{P(source|text)P(text)}{P(source)} $$ 因为P(source)是一个固定的值,所以又可以写成: $$ P(text|source) \propto
阅读全文
posted @ 2020-09-21 12:03 地球上最后一个直男
阅读(817)
评论(0)
推荐(1)
自然语言处理3-5:文本处理之倒排表
摘要: 还记得之前的基于匹配的问答系统吗?系统中有许多的问答对,可能是数百万条,千万条之类的。当用户提出一个问题,系统首先将该问题和问答库中的所有问题求文本相似度,然后选择相似度最高的那个问题,其对应的答案就是系统需要输出的答案。 但是,这样做的问题就是复杂度太高了。对于每个问题,系统需要进行百万次或者千万
阅读全文
posted @ 2020-09-21 11:27 地球上最后一个直男
阅读(324)
评论(0)
推荐(0)
自然语言处理3-4:文本表示之词向量
摘要: 这玩意儿和one-hot就不同了,词向量的表示方法可以称之为分布式表示法首先,向量的维度是自己任意指定的,其次,词向量的值是通过深度学习模型训练出来的。训练的目的也就是使得生成的词向量能够很好地反映出单词的意思,意思相近的单词对应的词向量其相似度也高。如下图所示就是通过训练得到的单词的词向量。其实有
阅读全文
posted @ 2020-09-21 01:24 地球上最后一个直男
阅读(531)
评论(0)
推荐(0)
自然语言处理3-3:文本表示之tf-idf
摘要: 传统的count-base representation有什么问题呢,可以看下图 观察句式2,其对应的向量中he所在位置的元素值是2,因为he在原句中出现了2次。可是,he在这一句中,并不算是关键词,事实上,denied和lied才是句子2的关键词,但是他们只出现了一次,所以在向量中对应位置的元素值
阅读全文
posted @ 2020-09-21 01:12 地球上最后一个直男
阅读(361)
评论(0)
推荐(0)
自然语言处理3-2:文本表示之计算相似度
摘要: 欧氏距离:如下图所示,欧氏距离越小,表示句子之间相似度越高 余弦相似度:如下图,余弦相似度越大,代表相似度越高。欧氏距离么有考虑向量的方向这一大要素,所以余弦相似度更贴切一些。
阅读全文
posted @ 2020-09-21 00:59 地球上最后一个直男
阅读(273)
评论(0)
推荐(0)
2020年9月20日
自然语言处理3-1:文本表示之one-hot representation
摘要: 词的one-hot表示 下面直接举例吧 现在假设我们有一个词典库【“我们”,“去”,“爬山”,“今天”,“你们”,“昨天”,“跑步”】,对于“我们”这个词,可以用这么一个向量表示,向量的维度是词典库的长度,这个向量的元素是0和1。由于“我们”在词典中是第一个位置,所以对应的向量第一个元素是1,其他位
阅读全文
posted @ 2020-09-20 22:19 地球上最后一个直男
阅读(1638)
评论(0)
推荐(0)
2020年9月19日
自然语言处理2-3: 停用词过滤以及stemming操作
摘要: 对于nlp的应用,我们应该先把停用词以及出现频率很低的词汇给过滤掉 在英文里,比如'the','and','their'都可以作为停用词来处理,但是,也要考虑自己的使用场景。例如,在中文中,“好”,“很好”这些词汇在有些应用中可以作为停用词过滤掉。但是如果是情感分析,这些词不能被过滤,也不能当作停用
阅读全文
posted @ 2020-09-19 21:26 地球上最后一个直男
阅读(1430)
评论(0)
推荐(0)
2020年9月18日
自然语言处理2-2: 拼写纠错
摘要: 一.编辑距离 关于编辑距离,在我的博客https://www.cnblogs.com/loubin/p/13672786.html中已经详细的介绍了。简短的说就是把一个单词修改成另一个单词需要的修改次数。当然,每一次只能增加一个字符,删除一个字符,或者更换一个字符。例如,apple和apply的编辑
阅读全文
posted @ 2020-09-18 18:29 地球上最后一个直男
阅读(275)
评论(0)
推荐(0)
2020年9月16日
自然语言处理2-1: 分词
摘要: 一:分词 常用的分词工具有jieba分词,snowNLP,LTP,HanNLP 1.前向最大匹配算法 现在假设我们有一个词典库{‘这些’,“这些年”,‘年’,‘的’, ‘情’,‘与’,‘爱’,‘终究’,‘是’, ‘错’,‘错付’,‘了’, ‘甄嬛’,。。。} 我们对“这些年的情与爱终究是错付了”利用
阅读全文
posted @ 2020-09-16 18:35 地球上最后一个直男
阅读(433)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
11
下一页
公告