随笔分类 - NLP
自然语言处理Natural Language Processing
摘要:[TOC] 前言 在18年末时,NLP各大公众号、新闻媒体都被BERT(《BERT: Pre training of Deep Bidirectional Transformers for Language Understanding》)刷屏了,刷新了自然语言处理11项纪录,也被称为了2018年最强
阅读全文
摘要:[TOC] 前言 很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做个总结,种种事情一直拖到现在,今天抽空赶紧将最后一篇补上。前面几篇博文中我们已经阐述了不论分词、词性标注亦或NER,都可以抽象成一种序列标注模型,seq2seq,就是将一个序列映射到另一个序列,这
阅读全文
摘要:[TOC] 前言 通过前面几篇系列文章,我们从分词中最基本的问题开始,并分别利用了1 gram和HMM的方法实现了分词demo。本篇博文在此基础上,重点介绍利用CRF来实现分词的方法,这也是一种基于字的分词方法,在将句子转换为序列标注问题之后,不使用HMM的生成模型方式,而是使用条件概率模型进行建模
阅读全文
摘要:[TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 我们讨论过基于词典的分词和基于字的分词两大类,在 "浅谈分词算法(2)基于词典的分词方法" 文中我们利用n gram实现了基于词典的分词方法。在(1)中,我们也讨论了这种方法有的缺陷,就是OOV的问题,即对于未登录词会失效在,并简单介绍了
阅读全文
摘要:[TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 中我们探讨了分词中的基本问题,也提到了基于词典的分词方法。基于词典的分词方法是一种比较传统的方式,这类分词方法有很多,如:正向最大匹配(forward maximum matching method, FMM)、逆向最大匹配(backwa
阅读全文
摘要:[TOC] 前言 分词或说切词是自然语言处理中一个经典且基础的问题,在平时的工作中也反复的接触到分词问题,用到了不同的模型,不同的方法应用在各个领域中,所以想对分词问题做一个系统的梳理。大多数分词问题主要是针对类似汉语、韩语、日语等,词语之间并没有天然的分割,而像英语等,句子中是带有天然的分割的。但
阅读全文
摘要:[TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。而有了文本之间相似性的度量方式,我们便可以利用划分法的K means、基于密度的DBSCAN或者是基于模型的概率方法进行文本
阅读全文
摘要:[TOC] 马里奥AI实现方式探索 ——神经网络+增强学习 儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现。平时我们都是人来玩马里奥游戏,能否可以让马里奥智能的自己闯关个呢?OK,利用人工智
阅读全文