nlp - 随笔分类 - Vpegasus

ChatGPT 也许是下一世代革命的原始星火

摘要：![](https://img2023.cnblogs.com/blog/1034295/202307/1034295-20230712144517052-1180489454.gif) ## 0 火出圈的ChatGPT 2022年12月，OpenAI发布其最新研究成果: ChaGPT，一个对话机器阅读全文

posted @ 2023-07-12 09:38 Vpegasus 阅读(227) 评论(0) 推荐(0)

自然语言处理(八) 条件随机场(仅基础)

摘要：条件随机场条件随机场 (conditional random field, CRF) 是给定一组随机变量$\mathbf{X}$条件下，另一组随机变量$\mathbf{Y}$的**条件概率分布模型**。并假设随机变量$\mathbf{Y}$构成马尔可夫随机场（稍后介绍）。一般在NLP中，特阅读全文

posted @ 2022-05-18 00:12 Vpegasus 阅读(345) 评论(0) 推荐(0)

自然语言处理(二) 新词发现或非监督词典构建

摘要：新词发现，未登录词识别，无监督词典构建对自然语言进行处理时，经常需要维持一个词典，词典一般不会从头构建，网上有很多词典可供使用。然而有时，特别在特定领域词典就不易获得了。需要人为构建，人工成本太大，如何自动构建呢？还有就是网上经常会出现很多新词，领域内也会因为如新产品、新技术、新应用的出现而出现阅读全文

posted @ 2021-07-23 14:04 Vpegasus 阅读(817) 评论(0) 推荐(0)

噪声对比估计 Noise-contrastive estimation

摘要：Noise-contrastive estimation 噪声对比估计目录 Noise-contrastive estimation 噪声对比估计这份简短的NCE博文是对自然语言处(四) 词向量编码 word2vec 的一个小补充或额外资料吧. 在统计中, 估计非标准化的模型参数是非常困难的,或阅读全文

posted @ 2021-04-09 08:36 Vpegasus 阅读(794) 评论(0) 推荐(0)

自然语言处理(三) 预训练模型：XLNet 和他的先辈们

摘要：预训练模型在CV中，预训练模型如ImagNet取得很大的成功，而在NLP中之前一直没有一个可以承担此角色的模型，目前，预训练模型如雨后春笋，是当今NLP领域最热的研究领域之一。预训练模型属于迁移学习，即在某一任务上训练的模型，经过微调(finetune)可以应用到其它任务上。在NLP领域，最早阅读全文

posted @ 2019-08-16 21:27 Vpegasus 阅读(1196) 评论(0) 推荐(0)

机器学习九机器学习中常用的采样方法

摘要：采样方法 [TOC] 实际应用中，经常需要获得服从某一分布的样本集。不过，手动生成一般来说不太现实，需要求助于计算机，而计算机则只能实现对均匀分布进行抽样。其他的分布，甚至如高斯分布都是无法实现的。不过，通过均匀分布，可间接地生成服从其他分布的样本。这点很重要，下面会看到，所有的随机模拟都从均匀分布阅读全文

posted @ 2019-06-30 16:05 Vpegasus 阅读(7198) 评论(1) 推荐(2)

自然语言处理(一) 关系抽取

摘要：Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作，特别在当今信息爆炸的背景下，显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息，并结构化成下游工作可用的格式，这是信息抽取的存在意义。信息抽取又可分为实体抽取或称命名实体识别，关系抽取以及事件抽取等。命名实体阅读全文

posted @ 2019-03-11 06:36 Vpegasus 阅读(29513) 评论(1) 推荐(2)

论文选读二：Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Veriﬁcation

摘要：论文选读二：Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Veriﬁcation 目前，阅读理解通常会给出一段背景资料，据此提出问题，而问题的答案也往往在背景资料里。不过背景资料一般是一篇文章，或者是文章的阅读全文

posted @ 2018-12-06 10:30 Vpegasus 阅读(1272) 评论(0) 推荐(0)

自然语言处理（五）时下流行的生成模型

摘要：近期流行的生成模型本次介绍近期大火的三大类生成模型，这三大类模型从三个不同角度切入，居然都能有惊人的效果。而且深入挖掘发现它们有很多相似的地方。 1. Generative Adversarial Nets 生成对抗网络(GANs)是当今最火的生成模型，从2014年 Goodfellow 论文发表阅读全文

posted @ 2018-08-04 15:26 Vpegasus 阅读(4649) 评论(0) 推荐(1)

论文选读三 QANet

摘要：Reading Comprehension(RC) 阅读理解对于机器来说，是一项非常艰巨的任务。google提出QANet，目前（2018 0505）一直是SQuAD的No. 1. 今天简单地与大家分享一下。 SQuAD Stanford Question Answering Dataset ( 阅读全文

posted @ 2018-05-05 09:33 Vpegasus 阅读(3250) 评论(0) 推荐(0)

自然语言处(四) 词向量编码 word2vec

摘要：word2vec word2vec 是Mikolov 在Bengio Neural Network Language Model(NNLM)的基础上构建的一种高效的词向量训练方法。词向量词向量(word embedding ) 是词的一种表示，是为了让计算机能够处理的一种表示。因为目前的计算机阅读全文

posted @ 2018-01-20 16:51 Vpegasus 阅读(4870) 评论(0) 推荐(0)

自然语言处理(七): 高冷贵族: 隐马尔可夫模型

摘要：高冷贵族: 隐马尔可夫模型引言大家都用过Siri,Cortana之类的语音助手吧? 当你对着手机说出'我的女朋友温柔吗?',Siri 或Cortana就会根据你说的这句话翻译成一段文字,然后再作应答. 先不管应答部分, 你可曾想过: Siri是如何将你说的话翻译成一段文字的?嗯,猜对了, 这里就阅读全文

posted @ 2017-08-14 08:11 Vpegasus 阅读(12335) 评论(4) 推荐(2)

自然语言处理(六): 炙手可热的RNN: LSTM

摘要：炙手可热的LSTM 引言上一讲说到RNN. RNN可说是目前处理时间序列的大杀器,相比于传统的时间序列算法,使用起来更方便,不需要太多的前提假设,也不需太多的参数调节,更重要的是有学习能力,因此是一种'智能'算法.前面也说到, 不只时间序列,在很多领域,特别是涉及序列数据的,RNN的表现总是那么的阅读全文

posted @ 2017-08-07 05:53 Vpegasus 阅读(7749) 评论(0) 推荐(1)

随笔分类 - nlp