邓布利多

导航

 
  • nlp的分类以及每种任务的介绍

  1. 基础语言处理任务

  2. 文本理解任务

  3. 文本生成任务

  4. 知识图谱相关任务

  • 语言模型

  1. N-gram
  2. word2vec
  3. emlo
  4. 5transformer
  5. bert
  6. gpt
  7. gpt3

自然语言处理(NLP)可以做的事情有很多,有哪些分类?这些分类又可以完成哪些事情呢?

基础语言处理任务

  • 分词:把文本切分成单个的词语或标记。例如,将 “我爱自然语言处理” 切分成 “我”“爱”“自然语言处理”。在中文处理中,分词是很重要的基础步骤,因为中文文本没有像英文那样的天然分隔符。
  • 词性标注:为文本中的每个词语标注其词性,像名词、动词、形容词等。例如,“我 爱 北京 天安门”,标注结果可能是 “我(代词) 爱(动词) 北京(名词) 天安门(名词)”。
  • 命名实体识别(NER):识别文本中的命名实体,如人名、地名、组织机构名等。比如,在 “苹果公司的乔布斯发明了 iPhone” 这句话中,“苹果公司” 是组织机构名,“乔布斯” 是人名,“iPhone” 是产品名。

文本理解任务

  • 文本分类:将文本划分到预定义的类别中。比如,将新闻文章分为政治、经济、体育等类别;把评论分为积极、消极、中性等情感类别。
  • 文本相似度计算:计算两个或多个文本之间的相似程度。这在信息检索、推荐系统等领域有广泛应用。例如,比较两篇新闻报道是否讲述了相似的事件。
  • 语义角色标注:确定句子中每个词语在语义上扮演的角色,如施事者、受事者等。例如,在 “小明吃苹果” 中,“小明” 是施事者,“苹果” 是受事者。

文本生成任务

  • 机器翻译:将一种语言的文本翻译成另一种语言。例如,将英文句子 “Hello, how are you?” 翻译成中文 “你好,你怎么样?”
  • 文本摘要:从长文本中提取关键信息,生成简短的摘要。可以分为抽取式摘要和生成式摘要,抽取式摘要是从原文中选取重要的句子组成摘要,生成式摘要则是通过自然语言生成技术生成新的摘要内容。
  • 对话系统:包括聊天机器人和智能客服等,能够理解用户的输入并生成合适的回复。比如,你在电商平台上与客服机器人交流商品信息。

知识图谱相关任务

  • 知识图谱构建:从文本中提取实体、关系和属性,构建知识图谱。例如,从大量的历史文献中提取人物、事件、地点之间的关系,构建历史知识图谱。
  • 知识问答:根据知识图谱回答用户的问题。例如,用户问 “爱因斯坦是哪国人?”,系统可以从知识图谱中找到答案 “德国(出生时)、瑞士、美国”。

 

语言模型

语言模型是一种用于计算语言序列概率分布的模型,它旨在对自然语言的结构和规律进行建模,以预测一个句子或文本序列出现的可能性。其核心原理是通过学习大量的文本数据,捕捉语言中的统计规律。例如,哪些词语经常一起出现,词语之间的顺序和依赖关系是怎样的等。基于这些统计信息,语言模型可以计算出一个给定词语序列的概率,或者预测下一个可能出现的词语。目前主要分为两种语言模型
  • 统计语言模型:以n - gram 语言模型为代表,通过统计语料库中词语的共现频率来计算概率。它简单直接,计算效率高,但对长距离依赖关系的建模能力有限。
  • 神经语言模型:基于神经网络架构,如循环神经网络(RNN)及其变体长短时记忆网络(LSTM)、门控循环单元(GRU),以及 Transformer 架构等。神经语言模型能够自动学习文本中的语义和句法信息,更好地处理长序列数据和长距离依赖关系,生成更准确的语言表示和预测结果。例如,基于 Transformer 的语言模型 BERT、GPT 等在各种自然语言处理任务中取得了显著的成果。

 n-gram

  • 假设:一个词的出现概率只与其前面的 n - 1 个词有关
  • 目标:通过前面的n-1个词预测第n个词是什么
  • 概率计算:根据上述假设,第n个词出现的概率可以表示为P(wn|w1,w2...wn-1)=P(w1,w2...wn-1,wn)/P(w1,w2...wn-1)=count(w1,w2...wn-1,wn)/count(w1,w2...wn-1),count(w1,w2...wn-1,wn)就是在文档中出现w1,w2...wn-1,wn的个数,count(w1,w2...wn-1)就是文档中w1,w2...wn-1出现的个数
  • 缺点:
  1. n - gram 模型假设每个词只与前面有限个词相关,这忽略了句子中长距离的语义依赖关系。
  2. 该模型对未登录词(在训练语料库中未出现过的词)的处理能力较差,当遇到这些词时,可能会导致概率计算出现问题,也就是所谓的00V问题,如“我是一个大帅哥”,你要计算P(帅哥|你不是)=P(你不是,帅哥)/P(你不是),分母也为零,那么就会出问题

 word2vec

  • 目标:它将单词映射到低维向量空间,使得在该空间中语义和语法相似的单词彼此靠近,以便更好地预测下一个单词是什么
  • 主要模型架构:Skip - Gram 模型和CBOW 模型
  1. Skip - Gram 模型:旨在通过当前单词预测上下文单词,就好像输入法一样,当你输入了一个词,就会立马给出下一个词给你
  2. CBOW 模型:与 Skip - Gram 模型相反,它是通过上下文单词来预测当前单词,类似于中考那会儿完形填空,给一段话作为上下文,你在其中填入缺失的单词

 

posted on 2025-04-16 23:29  邓布利多  阅读(51)  评论(0)    收藏  举报