导航

公告

nlp介绍

nlp的分类以及每种任务的介绍

基础语言处理任务
文本理解任务
文本生成任务
知识图谱相关任务

语言模型

N-gram
word2vec
emlo
5transformer
bert
gpt
gpt3

自然语言处理（NLP）可以做的事情有很多，有哪些分类？这些分类又可以完成哪些事情呢？

基础语言处理任务

分词：把文本切分成单个的词语或标记。例如，将 “我爱自然语言处理” 切分成 “我”“爱”“自然语言处理”。在中文处理中，分词是很重要的基础步骤，因为中文文本没有像英文那样的天然分隔符。
词性标注：为文本中的每个词语标注其词性，像名词、动词、形容词等。例如，“我爱北京天安门”，标注结果可能是 “我（代词）爱（动词）北京（名词）天安门（名词）”。
命名实体识别（NER）：识别文本中的命名实体，如人名、地名、组织机构名等。比如，在 “苹果公司的乔布斯发明了 iPhone” 这句话中，“苹果公司” 是组织机构名，“乔布斯” 是人名，“iPhone” 是产品名。

文本理解任务

文本分类：将文本划分到预定义的类别中。比如，将新闻文章分为政治、经济、体育等类别；把评论分为积极、消极、中性等情感类别。
文本相似度计算：计算两个或多个文本之间的相似程度。这在信息检索、推荐系统等领域有广泛应用。例如，比较两篇新闻报道是否讲述了相似的事件。
语义角色标注：确定句子中每个词语在语义上扮演的角色，如施事者、受事者等。例如，在 “小明吃苹果” 中，“小明” 是施事者，“苹果” 是受事者。

文本生成任务

机器翻译：将一种语言的文本翻译成另一种语言。例如，将英文句子 “Hello, how are you?” 翻译成中文 “你好，你怎么样？”
文本摘要：从长文本中提取关键信息，生成简短的摘要。可以分为抽取式摘要和生成式摘要，抽取式摘要是从原文中选取重要的句子组成摘要，生成式摘要则是通过自然语言生成技术生成新的摘要内容。
对话系统：包括聊天机器人和智能客服等，能够理解用户的输入并生成合适的回复。比如，你在电商平台上与客服机器人交流商品信息。

知识图谱相关任务

知识图谱构建：从文本中提取实体、关系和属性，构建知识图谱。例如，从大量的历史文献中提取人物、事件、地点之间的关系，构建历史知识图谱。
知识问答：根据知识图谱回答用户的问题。例如，用户问 “爱因斯坦是哪国人？”，系统可以从知识图谱中找到答案 “德国（出生时）、瑞士、美国”。

语言模型

语言模型是一种用于计算语言序列概率分布的模型，它旨在对自然语言的结构和规律进行建模，以预测一个句子或文本序列出现的可能性。其核心原理是通过学习大量的文本数据，捕捉语言中的统计规律。例如，哪些词语经常一起出现，词语之间的顺序和依赖关系是怎样的等。基于这些统计信息，语言模型可以计算出一个给定词语序列的概率，或者预测下一个可能出现的词语。目前主要分为两种语言模型

统计语言模型：以n - gram 语言模型为代表，通过统计语料库中词语的共现频率来计算概率。它简单直接，计算效率高，但对长距离依赖关系的建模能力有限。
神经语言模型：基于神经网络架构，如循环神经网络（RNN）及其变体长短时记忆网络（LSTM）、门控循环单元（GRU），以及 Transformer 架构等。神经语言模型能够自动学习文本中的语义和句法信息，更好地处理长序列数据和长距离依赖关系，生成更准确的语言表示和预测结果。例如，基于 Transformer 的语言模型 BERT、GPT 等在各种自然语言处理任务中取得了显著的成果。

n-gram

假设：一个词的出现概率只与其前面的 n - 1 个词有关
目标：通过前面的n-1个词预测第n个词是什么
概率计算：根据上述假设，第n个词出现的

word2vec

目标：它将单词映射到低维向量空间，使得在该空间中语义和语法相似的单词彼此靠近，以便更好地预测下一个单词是什么
主要模型架构：Skip - Gram 模型和CBOW 模型

Skip - Gram 模型：旨在通过当前单词预测上下文单词，就好像输入法一样，当你输入了一个词，就会立马给出下一个词给你
CBOW 模型:与 Skip - Gram 模型相反，它是通过上下文单词来预测当前单词,类似于中考那会儿完形填空，给一段话作为上下文，你在其中填入缺失的单词

posted on 2025-04-16 23:29 邓布利多阅读(51) 评论(0) 收藏举报

刷新页面返回顶部