随笔分类 - NLU
摘要:1.抽特征 一个query属不属于音乐,这和我们对音乐的理解有很大的关系,需要进行产品上的定义。如你会唱歌吗,刘德华,换一首音乐,如何让孩子爱上学习等,既可以属于音乐也可以不属于音乐。对音乐的理解最终落到标注数据上,继而来影响我们的打分模型给出高分或者低分。 我们对query进行了很多的清理、转换、
阅读全文
摘要:SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块,这也是最早实现的模块,包括两个工 具:ngram-count和ngram,相应的被用来估计语言模型和
阅读全文
摘要:逻辑函数 来源于数字电路,输入量和输出量之间的关系是一种逻辑上的因果关系,输出是0或1。函数定义: 最大似然估计 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。 正则化 L1/L2 regularization 为了避免过拟合overf
阅读全文
摘要:语言模型 计算词序列(words sequences)概率的模型称为语言模型(LMs),词序列(w1,w2,...,wn)的概率为: P(w1n) = P(w1)p(w2|w1)P(w3|w1w2)...P(wn|w1n 1) Bigram model 二元模型的前提是Markov假设(一个词的概率
阅读全文
摘要:人机交互方式越来越多的变成语音交互,用户说出口语化的自然语言,系统需要正确理解并实现对应的操作。语音识别是另外一个问题,本文讨论语音识别后的文本处理。而音乐在人们生活中是刚需,amazon的echo、google的google home、讯飞京东的叮咚智能音箱、百度的对话式人工智能操作系统DuerO
阅读全文
浙公网安备 33010602011771号