随笔分类 -  NLP

自然语言处理Natural Language Processing
摘要:[TOC] 前言 在18年末时,NLP各大公众号、新闻媒体都被BERT(《BERT: Pre training of Deep Bidirectional Transformers for Language Understanding》)刷屏了,刷新了自然语言处理11项纪录,也被称为了2018年最强 阅读全文
posted @ 2019-05-07 11:34 xlturing 阅读(19495) 评论(5) 推荐(0) 编辑
摘要:[TOC] 前言 很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做个总结,种种事情一直拖到现在,今天抽空赶紧将最后一篇补上。前面几篇博文中我们已经阐述了不论分词、词性标注亦或NER,都可以抽象成一种序列标注模型,seq2seq,就是将一个序列映射到另一个序列,这 阅读全文
posted @ 2019-01-06 22:25 xlturing 阅读(2195) 评论(0) 推荐(0) 编辑
摘要:[TOC] 前言 通过前面几篇系列文章,我们从分词中最基本的问题开始,并分别利用了1 gram和HMM的方法实现了分词demo。本篇博文在此基础上,重点介绍利用CRF来实现分词的方法,这也是一种基于字的分词方法,在将句子转换为序列标注问题之后,不使用HMM的生成模型方式,而是使用条件概率模型进行建模 阅读全文
posted @ 2018-12-28 12:16 xlturing 阅读(7871) 评论(0) 推荐(0) 编辑
摘要:[TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 我们讨论过基于词典的分词和基于字的分词两大类,在 "浅谈分词算法(2)基于词典的分词方法" 文中我们利用n gram实现了基于词典的分词方法。在(1)中,我们也讨论了这种方法有的缺陷,就是OOV的问题,即对于未登录词会失效在,并简单介绍了 阅读全文
posted @ 2018-02-24 17:22 xlturing 阅读(4456) 评论(3) 推荐(1) 编辑
摘要:[TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 中我们探讨了分词中的基本问题,也提到了基于词典的分词方法。基于词典的分词方法是一种比较传统的方式,这类分词方法有很多,如:正向最大匹配(forward maximum matching method, FMM)、逆向最大匹配(backwa 阅读全文
posted @ 2018-02-24 17:21 xlturing 阅读(10965) 评论(1) 推荐(0) 编辑
摘要:[TOC] 前言 分词或说切词是自然语言处理中一个经典且基础的问题,在平时的工作中也反复的接触到分词问题,用到了不同的模型,不同的方法应用在各个领域中,所以想对分词问题做一个系统的梳理。大多数分词问题主要是针对类似汉语、韩语、日语等,词语之间并没有天然的分割,而像英语等,句子中是带有天然的分割的。但 阅读全文
posted @ 2018-02-24 17:20 xlturing 阅读(3906) 评论(1) 推荐(4) 编辑
摘要:[TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。而有了文本之间相似性的度量方式,我们便可以利用划分法的K means、基于密度的DBSCAN或者是基于模型的概率方法进行文本 阅读全文
posted @ 2016-12-06 10:50 xlturing 阅读(22275) 评论(6) 推荐(9) 编辑
摘要:[TOC] 马里奥AI实现方式探索 ——神经网络+增强学习 儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现。平时我们都是人来玩马里奥游戏,能否可以让马里奥智能的自己闯关个呢?OK,利用人工智 阅读全文
posted @ 2016-09-06 09:46 xlturing 阅读(8445) 评论(13) 推荐(12) 编辑