随笔分类 -  NLP

XLNet模型
摘要:1. 什么是XLNet XLNet 是一个类似 BERT 的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型,最终,XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳 阅读全文

posted @ 2021-04-07 14:54 农夫三拳有點疼 阅读(508) 评论(0) 推荐(0) 编辑

BERT模型
摘要:1. 什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在p 阅读全文

posted @ 2021-04-07 14:41 农夫三拳有點疼 阅读(757) 评论(0) 推荐(0) 编辑

Transformer模型
摘要:1. 什么是Transformer 《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Tr 阅读全文

posted @ 2021-04-07 14:28 农夫三拳有點疼 阅读(312) 评论(0) 推荐(0) 编辑

注意力机制(Attention Mechanism)
摘要:1. 什么是Attention机制 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。 现在,让我们再次思考那⼀节提到的翻译例⼦:输⼊为英语序列“They”“are”“watching” 阅读全文

posted @ 2021-04-07 14:27 农夫三拳有點疼 阅读(836) 评论(0) 推荐(0) 编辑

序列到序列模型(seq2seq)
摘要:1. 什么是seq2seq 在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如: 英语输⼊:“They”、“are”、“watching”、“.” 法语输出:“Ils”、“regardent”、“.” 阅读全文

posted @ 2021-04-07 08:32 农夫三拳有點疼 阅读(1730) 评论(0) 推荐(0) 编辑

textRNN & textCNN
摘要:1. 什么是textRNN textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛,如: 垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件 情感分析:2分类问题:判断文本情感是积极 阅读全文

posted @ 2021-04-06 15:02 农夫三拳有點疼 阅读(177) 评论(0) 推荐(0) 编辑

全局向量词嵌入(GloVe)
摘要:1. 说说GloVe 正如GloVe论文的标题而言,**GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具, 阅读全文

posted @ 2021-04-06 14:59 农夫三拳有點疼 阅读(368) 评论(0) 推荐(0) 编辑

子词嵌入(fastText)
摘要:1. 什么是fastText 英语单词通常有其内部结构和形成⽅式。例如,我们可以从“dog”“dogs”和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog”,但使⽤不同的后缀来改变词的含义。而且,这个关联可以推⼴⾄其他词汇。 在word2vec中,我们并没有直接利⽤构词学 阅读全文

posted @ 2021-04-06 14:23 农夫三拳有點疼 阅读(123) 评论(0) 推荐(0) 编辑

词嵌入(Word2Vec)
摘要:1. 什么是词嵌入(Word Embedding) ⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是⽤来表⽰词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊(word embedding)。近年来,词嵌⼊已逐渐成为⾃然语⾔处理的 阅读全文

posted @ 2021-04-06 11:22 农夫三拳有點疼 阅读(680) 评论(0) 推荐(0) 编辑

智能客服(Intelligent Customer Service)
摘要:1. 智能客服系统 智能客服产生的背景:为什么要有智能客服这样的一个产品,或者说研究方向呢?主要有以下这几个原因: 我们日常生活中会遇到大量的客服问题,比如说你打电话给联通、移动等,或者说在淘宝上买东西,这些问题大部分都是一些重复的问题,而且频率也特别高,非常的耗人工; 对于一个客服密集型的企业来说 阅读全文

posted @ 2021-03-26 16:49 农夫三拳有點疼 阅读(1225) 评论(0) 推荐(0) 编辑

NLP杂文记录
摘要:1. 什么是NLP 自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探 阅读全文

posted @ 2021-03-26 10:31 农夫三拳有點疼 阅读(78) 评论(0) 推荐(0) 编辑

NLP模型
摘要:NLP模型榜单:https://gluebenchmark.com/leaderboard 一、ERNIE2.0 目前最好的中文模型算是百度的艾尼2.0,可用在github上找到官网,但是有个最大的问题就是,百度没有放出ERNIE2.0的中文预训练模型。 二、XLNET google出品的,也是有个 阅读全文

posted @ 2020-05-15 13:22 农夫三拳有點疼 阅读(365) 评论(0) 推荐(0) 编辑

中文短文本分类项目实践
摘要:一、WordCloud 制作词云 在网上摘取了一些文本(自己线下可以继续添加语料),下面来制作一个中美贸易战相关的词云。 1. jieba 分词安装 jieba 俗称中文分词利器,作用是来对文本语料进行分词。 全自动安装:easy_install jieba 或者 pip install jieba 阅读全文

posted @ 2019-12-03 16:14 农夫三拳有點疼 阅读(1511) 评论(0) 推荐(2) 编辑

模型部署上线的几种服务发布方式
该文被密码保护。

posted @ 2019-12-03 16:00 农夫三拳有點疼 阅读(32) 评论(0) 推荐(0) 编辑

中文句法依存分析
摘要:句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和 阅读全文

posted @ 2019-12-03 15:59 农夫三拳有點疼 阅读(765) 评论(0) 推荐(0) 编辑

基于 CRF 的中文句法依存分析模型(下)
摘要:句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单 阅读全文

posted @ 2019-12-03 15:59 农夫三拳有點疼 阅读(696) 评论(0) 推荐(0) 编辑

基于 CRF 的中文命名实体识别模型(上)
摘要:命名实体识别在越来越多的场景下被应用,如自动问答、知识图谱等。非结构化的文本内容有很多丰富的信息,但找到相关的知识始终是一个具有挑战性的任务,命名实体识别也不例外。 前面我们用隐马尔可夫模型(HMM)自己尝试训练过一个分词器,其实 HMM 也可以用来训练命名实体识别器,但在本文,我们讲另外一个算法— 阅读全文

posted @ 2019-12-03 15:58 农夫三拳有點疼 阅读(1480) 评论(0) 推荐(0) 编辑

简易聊天机器人
摘要:自动问答简介 自动聊天机器人,也称为自动问答系统,由于所使用的场景不同,叫法也不一样。自动问答(Question Answering,QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文 阅读全文

posted @ 2019-12-03 15:57 农夫三拳有點疼 阅读(429) 评论(0) 推荐(0) 编辑

中文命名实体提取
摘要:命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。 由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分) 阅读全文

posted @ 2019-12-03 15:57 农夫三拳有點疼 阅读(1558) 评论(0) 推荐(0) 编辑

完全基于情感词典的文本情感分析
摘要:目前情感分析在中文自然语言处理中比较火热,很多场景下,我们都需要用到情感分析。比如,做金融产品量化交易,需要根据爬取的舆论数据来分析政策和舆论对股市或者基金期货的态度;电商交易,根据买家的评论数据,来分析商品的预售率等等。 下面我们通过以下几点来介绍中文自然语言处理情感分析: 中文情感分析方法简介; 阅读全文

posted @ 2019-12-03 15:56 农夫三拳有點疼 阅读(15595) 评论(1) 推荐(2) 编辑

导航