2018 年 6月随笔档案 - Josie_chen

摘要：一、最大熵模型《数学之美》中的描述：阅读全文

posted @ 2018-06-07 16:32 Josie_chen 阅读(196) 评论(0) 推荐(0)

摘要：表示人类造出的词：（1）从语料中提取出含义表达。（2）从文字到数值向量词编码的方式：N-gram，TF-IDF——Word2vec（对于多义词会转化到同一个数值向量，从而导致不准确）——sense2vec（区分在不同语境下某些单词的具体含义） · 给每个词一个索引，每个词都编码一个下标，但是由阅读全文

posted @ 2018-06-07 12:39 Josie_chen 阅读(950) 评论(0) 推荐(0)

02-NLP-06-深度学习与NLP简单应用

摘要：希望在毫不知情（很少的人类介入）的情况下实现。即端对端的实现。一、Intro 工具推荐：二、Auto-Encoder 使用自编码器的情况：1）拿到的原始数据缺少标签（数据降噪） 2）数据太大了，需要进行降维，使得最后数据集大小可接受（例如可以讲原始的8*8图片压缩成2*1的）将原始图片“数字阅读全文

posted @ 2018-06-06 17:06 Josie_chen 阅读(484) 评论(0) 推荐(0)

02-NLP-05-使用HMM进行词性标注

摘要：使用HMM进行词性标注这里我们用NLTK自带的Brown词库进行学习。假设我们的单词集： words = w1 ... wN Tag集： tags = t1 ... tN P(tags | words) 正比于 P(ti | t{i-1}) * P(wi | ti) 类似贝叶斯公式（利用中间量）阅读全文

posted @ 2018-06-06 10:45 Josie_chen 阅读(1597) 评论(0) 推荐(0)

02-NLP-05-隐式马尔科夫链

摘要：在初始状态确定的情况下，（1 0）状态下，马尔科夫链的结果最终会趋于稳态分布。即最终结果会得到一个固定的稳态分布。没有办法给出完整的判断，这个时候就需要多一条马尔科夫链。先设置一个牛市和熊市的马尔科夫链，然后牛市对应涨跌，熊市也对应涨跌。从而得到一个双层结构的马尔科夫链。能观测到的最外侧的涨阅读全文

posted @ 2018-06-05 17:04 Josie_chen 阅读(559) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-07-Niutrans

摘要：Niutrans：基于短语的统计翻译系统 1. Data preparation数据准备阶段 a) Training data 训练数据 LM-training-set和 LM-training-set b) Tuning data 调参参数（相当于超参数：来调整权重参数） c) Test data 阅读全文

posted @ 2018-06-05 13:22 Josie_chen 阅读(232) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-06-评估

摘要：翻译其实是没有一个标准答案的，只能最终提供一个参考答案。所以评估结果是依据参考答案得出来的常用的评估：BLEU：判断翻译结果中，所有的N元祖，和标准答案N元祖之间的重合度通常计算精确度是计算1~4元的添加一个惩罚项penalty，当输出长度比参考的长度长的时候系数取1；当输出比参考短的时候，阅读全文

posted @ 2018-06-05 11:48 Josie_chen 阅读(197) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-05-解码

摘要：两两组合看有多少种对齐方式列举成一棵树。然后从头开始组成一句话。但是如果想要穷尽所有情况是一个NP难问题，没有办法实现，因此只能采取最优路径搜索。例如，下面提到的beam search算法可以很优秀地进行路径查找。此方法在谷歌NN翻译的解码阶段也有采用。 Find Best Path：找最优路径阅读全文

posted @ 2018-06-05 11:20 Josie_chen 阅读(201) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-04-短语翻译表构造——概率估计

摘要：将很长的短语对进行拆分，来进行计算。有时一个中文的词会对应好几个英文（一对多），因此才在抽取短语的时候需要满足“一致性要求”。阅读全文

posted @ 2018-06-05 11:07 Josie_chen 阅读(250) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-03-短语翻译表构造——短语抽取

摘要：统计翻译模型核心就是基于短语的翻译（短语与短语的对应）。上一讲中词到词的对应就是为了短语对应做铺垫。一致性短语需要满足三个条件：条件1：如果“北京房价”对应的英文短语中包含“北京”、“房价”分别对应的英文单词（原因是在词对齐的时候，可以发现有很多轮空的.）条件2：以目标语言为基础，不同目阅读全文

posted @ 2018-06-05 10:00 Josie_chen 阅读(543) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-02词对齐

摘要：www.NiuTrans.com IBM的思路：EM算法。由于语序问题肯定不能一个个词直接翻译。因此需要找到内在的词对齐的方式。在IBM出现之前，采用过很多句法上的努力。例如利用语法syntax分析（现在已经不怎么用）。因为当句子很长的、表达方式越来越多元化的时候，如果想要通过直接归纳出来一个固阅读全文

posted @ 2018-06-04 17:04 Josie_chen 阅读(929) 评论(0) 推荐(0)

02-NLP-04基于统计的翻译系统-01预处理

摘要：基于统计的机器翻译：mosesdecoder作为比对翻译效果的baseline，如果不如这个的效果，就说明测试系统效果不算好。首先看看一共需要以下三个模型：语言模型：用来评估这句话的通畅程度。 1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。 2、翻译模型：实质是基于短语的（不是阅读全文

posted @ 2018-06-04 16:19 Josie_chen 阅读(415) 评论(0) 推荐(0)

02-NLP-03-LDA主题模型应用

摘要：LDA模型应用：一眼看穿希拉里的邮件我们拿到希拉里泄露的邮件，跑一把LDA，看看她平时都在聊什么。希望通过这样一个LDA模型将她所有的邮件进行分类，从而只需要从这些类中取出。利用gensim中包含的LDA模型。首先，导入我们需要的一些库 LDA模型应用：一眼看穿希拉里的邮件我们拿到希拉里泄阅读全文

posted @ 2018-06-04 13:20 Josie_chen 阅读(1309) 评论(0) 推荐(1)

02-NLP-03-主题模型

摘要：PPT 什么是主题模型：给定一篇文章X，区分出他是什么主题Y。理理解整个过程，涉及到比较复杂数学推导。⼀一般来说，从公式1一直推导到公式100，⼤大部分同学会在公式10左右的时候，就关了了直播，洗洗睡了了所以，我今天用3个不不同版本的讲解，从简单到复杂，一步步理理解主体模型。直观版：假设某企业阅读全文

posted @ 2018-06-03 13:26 Josie_chen 阅读(324) 评论(0) 推荐(0)

02-NLP-02-从朴素贝叶斯（NB）到语言模型

摘要：1. 引言：朴素贝叶斯的局限性我们知道朴素贝叶斯的局限性来源于其条件独立假设，它将文本看成是词袋子模型，不考虑词语之间的顺序信息，就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢？有，就是这里要提到的N-gram语言模型。 2. N-gra 阅读全文

posted @ 2018-06-02 16:32 Josie_chen 阅读(612) 评论(0) 推荐(0)

02-NLP-02-用朴素贝叶斯完成语种检测

摘要：用朴素贝叶斯完成语种检测用朴素贝叶斯完成语种检测用朴素贝叶斯完成语种检测我们试试用朴素贝叶斯完成一个语种检测的分类器，说起来，用朴素贝叶斯完成这个任务，其实准确度还不错。我们试试用朴素贝叶斯完成一个语种检测的分类器，说起来，用朴素贝叶斯完成这个任务，其实准确度还不错。我们试试用朴素贝叶斯完阅读全文

posted @ 2018-06-02 15:50 Josie_chen 阅读(647) 评论(0) 推荐(0)

02-NLP-02-朴素贝叶斯与应用

posted @ 2018-06-02 12:13 Josie_chen 阅读(213) 评论(0) 推荐(0)

02-NLP-02-朴素贝叶斯

摘要：朴素贝叶斯 1. 引言贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式贝叶斯公式就一行： P(Y|X)=P(X|Y)P(Y)P(X) 阅读全文

posted @ 2018-06-02 09:49 Josie_chen 阅读(250) 评论(0) 推荐(0)

02-NLP-01-jieba中文处理

摘要：jieba中文处理和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。这才是主要需要处理的是基于中文的。jieba可以实现粗细两种粒度的分词处理。一般选择的是粗粒阅读全文

posted @ 2018-06-01 11:10 Josie_chen 阅读(1048) 评论(0) 推荐(0)

02-NLP-01-python正则表达式

摘要：Python正则表达式 by 寒小阳(hanxiaoyang.ml@gmail.com) 正则表达式是处理字符串的强大工具，拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时，有些情况用str自带的函数(比如find, in)可能可以完成，有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的阅读全文

posted @ 2018-06-01 11:09 Josie_chen 阅读(492) 评论(0) 推荐(0)

02-NLP-01-字符串处理

摘要：Jupyter Notebook string_operation 字符串操作我们一起回归一下python字符串的相关操作，这是非常基础的知识，但却是使用频度非常高的一些功能。去空格及特殊符号 In [3]: s = ' hello, world!' print s.strip() print 阅读全文

posted @ 2018-06-01 11:07 Josie_chen 阅读(220) 评论(0) 推荐(0)

Josie_chen

06 2018 档案

导航

公告