-
nlp的分类以及每种任务的介绍
-
基础语言处理任务
-
文本理解任务
-
文本生成任务
-
知识图谱相关任务
-
语言模型
- N-gram
- word2vec
- emlo
- 5transformer
- bert
- gpt
- gpt3
自然语言处理(NLP)可以做的事情有很多,有哪些分类?这些分类又可以完成哪些事情呢?
基础语言处理任务
- 分词:把文本切分成单个的词语或标记。例如,将 “我爱自然语言处理” 切分成 “我”“爱”“自然语言处理”。在中文处理中,分词是很重要的基础步骤,因为中文文本没有像英文那样的天然分隔符。
- 词性标注:为文本中的每个词语标注其词性,像名词、动词、形容词等。例如,“我 爱 北京 天安门”,标注结果可能是 “我(代词) 爱(动词) 北京(名词) 天安门(名词)”。
- 命名实体识别(NER):识别文本中的命名实体,如人名、地名、组织机构名等。比如,在 “苹果公司的乔布斯发明了 iPhone” 这句话中,“苹果公司” 是组织机构名,“乔布斯” 是人名,“iPhone” 是产品名。
文本理解任务
- 文本分类:将文本划分到预定义的类别中。比如,将新闻文章分为政治、经济、体育等类别;把评论分为积极、消极、中性等情感类别。
- 文本相似度计算:计算两个或多个文本之间的相似程度。这在信息检索、推荐系统等领域有广泛应用。例如,比较两篇新闻报道是否讲述了相似的事件。
- 语义角色标注:确定句子中每个词语在语义上扮演的角色,如施事者、受事者等。例如,在 “小明吃苹果” 中,“小明” 是施事者,“苹果” 是受事者。
文本生成任务
- 机器翻译:将一种语言的文本翻译成另一种语言。例如,将英文句子 “Hello, how are you?” 翻译成中文 “你好,你怎么样?”
- 文本摘要:从长文本中提取关键信息,生成简短的摘要。可以分为抽取式摘要和生成式摘要,抽取式摘要是从原文中选取重要的句子组成摘要,生成式摘要则是通过自然语言生成技术生成新的摘要内容。
- 对话系统:包括聊天机器人和智能客服等,能够理解用户的输入并生成合适的回复。比如,你在电商平台上与客服机器人交流商品信息。
知识图谱相关任务
- 知识图谱构建:从文本中提取实体、关系和属性,构建知识图谱。例如,从大量的历史文献中提取人物、事件、地点之间的关系,构建历史知识图谱。
- 知识问答:根据知识图谱回答用户的问题。例如,用户问 “爱因斯坦是哪国人?”,系统可以从知识图谱中找到答案 “德国(出生时)、瑞士、美国”。
语言模型
语言模型是一种用于计算语言序列概率分布的模型,它旨在对自然语言的结构和规律进行建模,以预测一个句子或文本序列出现的可能性。其核心原理是通过学习大量的文本数据,捕捉语言中的统计规律。例如,哪些词语经常一起出现,词语之间的顺序和依赖关系是怎样的等。基于这些统计信息,语言模型可以计算出一个给定词语序列的概率,或者预测下一个可能出现的词语。目前主要分为两种语言模型
- 统计语言模型:以n - gram 语言模型为代表,通过统计语料库中词语的共现频率来计算概率。它简单直接,计算效率高,但对长距离依赖关系的建模能力有限。
- 神经语言模型:基于神经网络架构,如循环神经网络(RNN)及其变体长短时记忆网络(LSTM)、门控循环单元(GRU),以及 Transformer 架构等。神经语言模型能够自动学习文本中的语义和句法信息,更好地处理长序列数据和长距离依赖关系,生成更准确的语言表示和预测结果。例如,基于 Transformer 的语言模型 BERT、GPT 等在各种自然语言处理任务中取得了显著的成果。
n-gram
- 假设:一个词的出现概率只与其前面的 n - 1 个词有关
- 目标:通过前面的n-1个词预测第n个词是什么
- 概率计算:根据上述假设,第n个词出现的概率可以表示为P(wn|w1,w2...wn-1)=P(w1,w2...wn-1,wn)/P(w1,w2...wn-1)=count(w1,w2...wn-1,wn)/count(w1,w2...wn-1