06 2018 档案

摘要:一、最大熵模型 《数学之美》中的描述: 阅读全文

posted @ 2018-06-07 16:32 Josie_chen 阅读(196) 评论(0) 推荐(0)

摘要:表示人类造出的词: (1)从语料中提取出含义表达。 (2)从文字到数值向量 词编码的方式:N-gram,TF-IDF——Word2vec(对于多义词会转化到同一个数值向量,从而导致不准确)——sense2vec(区分在不同语境下某些单词的具体含义) · 给每个词一个索引,每个词都编码一个下标,但是由 阅读全文

posted @ 2018-06-07 12:39 Josie_chen 阅读(950) 评论(0) 推荐(0)

摘要:希望在毫不知情(很少的人类介入)的情况下实现。即端对端的实现。 一、Intro 工具推荐: 二、Auto-Encoder 使用自编码器的情况:1)拿到的原始数据缺少标签 (数据降噪) 2)数据太大了,需要进行降维,使得最后数据集大小可接受(例如可以讲原始的8*8图片压缩成2*1的) 将原始图片“数字 阅读全文

posted @ 2018-06-06 17:06 Josie_chen 阅读(484) 评论(0) 推荐(0)

摘要:使用HMM进行词性标注 这里我们用NLTK自带的Brown词库进行学习。 假设我们的单词集: words = w1 ... wN Tag集: tags = t1 ... tN P(tags | words) 正比于 P(ti | t{i-1}) * P(wi | ti) 类似贝叶斯公式(利用中间量) 阅读全文

posted @ 2018-06-06 10:45 Josie_chen 阅读(1597) 评论(0) 推荐(0)

摘要:在初始状态确定的情况下,(1 0)状态下,马尔科夫链的结果最终会趋于稳态分布。 即最终结果会得到一个固定的稳态分布。 没有办法给出完整的判断,这个时候就需要多一条马尔科夫链。 先设置一个牛市和熊市的马尔科夫链,然后牛市对应涨跌,熊市也对应涨跌。从而得到一个双层结构的马尔科夫链。 能观测到的最外侧的涨 阅读全文

posted @ 2018-06-05 17:04 Josie_chen 阅读(559) 评论(0) 推荐(0)

摘要:Niutrans:基于短语的统计翻译系统 1. Data preparation数据准备阶段 a) Training data 训练数据 LM-training-set和 LM-training-set b) Tuning data 调参参数(相当于超参数:来调整权重参数) c) Test data 阅读全文

posted @ 2018-06-05 13:22 Josie_chen 阅读(232) 评论(0) 推荐(0)

摘要:翻译其实是没有一个标准答案的,只能最终提供一个参考答案。所以评估结果是依据参考答案得出来的 常用的评估:BLEU: 判断翻译结果中,所有的N元祖,和标准答案N元祖之间的重合度 通常计算精确度是计算1~4元的 添加一个惩罚项penalty,当输出长度比参考的长度长的时候系数取1;当输出比参考短的时候, 阅读全文

posted @ 2018-06-05 11:48 Josie_chen 阅读(197) 评论(0) 推荐(0)

摘要:两两组合看有多少种对齐方式列举成一棵树。 然后从头开始组成一句话。但是如果想要穷尽所有情况是一个NP难问题,没有办法实现,因此只能采取最优路径搜索。 例如,下面提到的beam search算法可以很优秀地进行路径查找。此方法在谷歌NN翻译的解码阶段也有采用。 Find Best Path:找最优路径 阅读全文

posted @ 2018-06-05 11:20 Josie_chen 阅读(201) 评论(0) 推荐(0)

摘要:将很长的短语对进行拆分,来进行计算。 有时一个中文的词会对应好几个英文(一对多),因此才在抽取短语的时候需要满足“一致性要求”。 阅读全文

posted @ 2018-06-05 11:07 Josie_chen 阅读(250) 评论(0) 推荐(0)

摘要:统计翻译模型核心就是基于短语的翻译(短语与短语的对应)。 上一讲中词到词的对应就是为了短语对应做铺垫。 一致性短语需要满足三个条件: 条件1:如果“北京 房价”对应的英文短语中包含“北京”、“房价”分别对应的英文单词(原因是在词对齐的时候,可以发现有很多轮空的.) 条件2: 以目标语言为基础,不同目 阅读全文

posted @ 2018-06-05 10:00 Josie_chen 阅读(543) 评论(0) 推荐(0)

摘要:www.NiuTrans.com IBM的思路:EM算法。 由于语序问题肯定不能一个个词直接翻译。因此需要找到内在的词对齐的方式。 在IBM出现之前,采用过很多句法上的努力。例如利用语法syntax分析(现在已经不怎么用)。因为当句子很长的、表达方式越来越多元化的时候,如果想要通过直接归纳出来一个固 阅读全文

posted @ 2018-06-04 17:04 Josie_chen 阅读(929) 评论(0) 推荐(0)

摘要:基于统计的机器翻译:mosesdecoder作为比对翻译效果的baseline,如果不如这个的效果,就说明测试系统效果不算好。 首先看看一共需要以下三个模型: 语言模型:用来评估这句话的通畅程度。 1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。 2、翻译模型:实质是基于短语的(不是 阅读全文

posted @ 2018-06-04 16:19 Josie_chen 阅读(415) 评论(0) 推荐(0)

摘要:LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄露的邮件,跑一把LDA,看看她平时都在聊什么。 希望通过这样一个LDA模型将她所有的邮件进行分类,从而只需要从这些类中取出。 利用gensim中包含的LDA模型。 首先,导入我们需要的一些库 LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄 阅读全文

posted @ 2018-06-04 13:20 Josie_chen 阅读(1309) 评论(0) 推荐(1)

摘要:PPT 什么是主题模型:给定一篇文章X,区分出他是什么主题Y。 理理解整个过程,涉及到比较复杂数学推导。⼀一般来说,从公式1一直推导到公式100,⼤大部分同学会在公式10左右的时候,就关了了直播,洗洗睡了了所以,我今天用3个不不同版本的讲解,从简单到复杂,一步步理理解主体模型。 直观版: 假设某企业 阅读全文

posted @ 2018-06-03 13:26 Josie_chen 阅读(324) 评论(0) 推荐(0)

摘要:1. 引言:朴素贝叶斯的局限性 我们知道朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是这里要提到的N-gram语言模型。 2. N-gra 阅读全文

posted @ 2018-06-02 16:32 Josie_chen 阅读(612) 评论(0) 推荐(0)

摘要:用朴素贝叶斯完成语种检测 用朴素贝叶斯完成语种检测 用朴素贝叶斯完成语种检测 我们试试用朴素贝叶斯完成一个语种检测的分类器,说起来,用朴素贝叶斯完成这个任务,其实准确度还不错。 我们试试用朴素贝叶斯完成一个语种检测的分类器,说起来,用朴素贝叶斯完成这个任务,其实准确度还不错。 我们试试用朴素贝叶斯完 阅读全文

posted @ 2018-06-02 15:50 Josie_chen 阅读(647) 评论(0) 推荐(0)

摘要:朴素贝叶斯与应用 朴素贝叶斯与应用 朴素贝叶斯与应用 贝叶斯理论简单回顾 在我们有一大堆样本(包含特征和类别)的时候,我们非常容易通过统计得到 p(特征|类别)p(特征|类别). 大家又都很熟悉下述公式: p(x)p(y|x)=p(y)p(x|y)p(x)p(y|x)=p(y)p(x|y) 所以做一 阅读全文

posted @ 2018-06-02 12:13 Josie_chen 阅读(213) 评论(0) 推荐(0)

摘要:朴素贝叶斯 1. 引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式 贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X) 阅读全文

posted @ 2018-06-02 09:49 Josie_chen 阅读(250) 评论(0) 推荐(0)

摘要:jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。这才是主要需要处理的是基于中文的。jieba可以实现粗细两种粒度的分词处理。一般选择的是粗粒 阅读全文

posted @ 2018-06-01 11:10 Josie_chen 阅读(1048) 评论(0) 推荐(0)

摘要:Python正则表达式 by 寒小阳(hanxiaoyang.ml@gmail.com) 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的 阅读全文

posted @ 2018-06-01 11:09 Josie_chen 阅读(492) 评论(0) 推荐(0)

摘要:Jupyter Notebook string_operation 字符串操作 我们一起回归一下python字符串的相关操作,这是非常基础的知识,但却是使用频度非常高的一些功能。 去空格及特殊符号 In [3]: s = ' hello, world!' print s.strip() print 阅读全文

posted @ 2018-06-01 11:07 Josie_chen 阅读(220) 评论(0) 推荐(0)

导航