随笔分类 -  NLP

记录NLP的知识
摘要:目标 输入:语音的波形。 输出:语音对应的文字。 详述 我在思考一个问题,如何将语音转化为文字。我知道要使用HMM-GMM算法,虽然了解一些细枝末节的零散知识,但宏观上并没有形成整体概念。 我拆解语音和文字,并省略诸多的细节。语音部分,通过预处理,我可以得到特定的非常长的帧。文字部分,文字通过音节字 阅读全文
posted @ 2021-11-01 15:39 schaffen 阅读(324) 评论(0) 推荐(0)
摘要:0 简介 本文介绍了HMM算法。 1 简单的理解 HMM 算法,名为「隐马尔科夫模型」。 类似这张图片: \[ Q={q_1,q_2,…,q_N},V={v_1,v_2,…,v_M} \] \[ I=(i_1,i_2,…,i_T),O=(o_1,o_2,…,o_T) \] 名称的: 状态序列是隐藏的 阅读全文
posted @ 2021-11-01 00:12 schaffen 阅读(417) 评论(0) 推荐(0)
摘要:获得两个strings的距离,是非常有价值的事情。 你可以用这个进行单词的修正,例如你在office里面输入了单词graffe,然后软件帮你自动搜索最近的单词,类似graf,graft等等。 对于基因编辑来说,也非常有帮助。我们都知道基因由AGCT序列组合而成,它们可以被视为文本,然后查找最近的基因 阅读全文
posted @ 2020-12-15 18:37 schaffen 阅读(390) 评论(0) 推荐(0)
摘要:介绍 本文基于该博客的内容改编。 想象你是一位校长,手下有十个班级,每个班级5个学生,每个学生都坐在自己的座位上,每个人成绩都不一样。 (如果你很难想象,那么就看看下面的代码实例中的data变量。) 现在你的任务是,从一班到十班,根据特定规则,在每个班级寻找一位学生,然后搭配成为最好的学生组合(注意 阅读全文
posted @ 2020-11-25 05:07 schaffen 阅读(646) 评论(0) 推荐(0)
摘要:内容简介 本文主要是通过代码的方式展示pytorch的pack和pad函数。 找到的两个可以参考的靠谱网站(不是CSDN的奇怪东西): 理论链接,建议直接看图 实践链接,直接看代码 使用的代码 from torch.nn.utils.rnn import pack_padded_sequence, 阅读全文
posted @ 2020-11-24 23:53 schaffen 阅读(609) 评论(0) 推荐(0)
摘要:上一节,我们尝试使用正则表达式工具来提取必要的信息,接下来则是要对提取出来的文本正规化。 基本的任务(根据实际应用会产生变化): 让文本句子token化/segment化(获得单词) 正规化**单词(word)**的形式 (例如提取单词的主干,比方说英语中的原型和过去式) 让句子segment化 上 阅读全文
posted @ 2020-11-08 22:17 schaffen 阅读(1305) 评论(0) 推荐(0)
摘要:本文整理自 TUM 的英文 NLP 课程。 正则表达式:使用代数符号(例如:+-*/)去表征,查找一系列的字符串,是一种非常简单的分类器(搜索器)。 文中收录的可能不全,如果想要知道更加完整的指南,可以参考: -快速完整入门指南 (https://deerchao.cn/tutorials/rege 阅读全文
posted @ 2020-11-08 07:19 schaffen 阅读(157) 评论(0) 推荐(0)